home *** CD-ROM | disk | FTP | other *** search
/ Amiga Plus 1995 #2 / Amiga Plus CD - 1995 - No. 2.iso / internet / faq / englisch / comp.speech < prev    next >
Encoding:
Text File  |  1995-04-11  |  141.2 KB  |  3,188 lines

  1. Archive-name: comp-speech-faq/part1
  2. Last-modified: 1995/01/11
  3.  
  4.  
  5.               COMP.SPEECH FAQ POSTING - PART 1/3
  6.  
  7.  
  8. [Note: this document has been automatically extracted from a WWW site:
  9.         http://www.speech.su.oz.au/comp.speech
  10. This may introduce some formatting errors.]
  11.  
  12.    
  13. Comp.Speech Frequently Asked Questions
  14.  
  15.    The Frequently Asked Questions (FAQ) is a regular posting to
  16.    comp.speech which attempts to answer some of the regular questions in
  17.    the comp.speech newsgroup.
  18.    
  19.    The FAQ is not meant to discuss any topic exhaustively. It will
  20.    hopefully provide readers with pointers on where to find useful
  21.    information, especially material available on the Internet.
  22.    
  23.    If you have not already read the Usenet introductory material posted
  24.    to "news.announce.newusers", please do. For help with FTP (file
  25.    transfer protocol) look for a regular posting of "Anonymous FTP List -
  26.    FAQ" in comp.misc, comp.archives.admin or news.answers.
  27.    
  28.    This FAQ is posted every 4 weeks to comp.speech, comp.answers &
  29.    news.answers.
  30.    
  31.    It is also available for anonymous ftp from the comp.speech archive
  32.    site :
  33.      * ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/FAQ-complete
  34.        
  35.    Or from the news.answers ftp site (and its mirrors)
  36.      * ftp://rtfm.mit.edu/pub/usenet/news.answers/comp-speech-faq/*
  37.        
  38.    Or on the World Wide Web
  39.      * http://www.speech.su.oz.au/comp.speech
  40.        
  41.    Or by sending email to mail-server@rtfm.mit.edu with the following
  42.    line in the body of the message:
  43.      * send usenet/news.answers/comp-speech-faq/*
  44.        
  45. Admin
  46.  
  47.    Not much to report this month. Hopefully, February should see some
  48.    major catch-up work.
  49.    
  50. FAQ Sections
  51.  
  52.    The FAQ is divided into the following sections:
  53.      * FAQ Contents
  54.        
  55.      * List of Speech Technology Products and Software
  56.        
  57.      * FAQ Section 1: General Information on Speech Technology
  58.      * FAQ Section 2: Signal Processing
  59.      * FAQ Section 3: Speech Coding and Compression
  60.      * FAQ Section 4: Natural Language Processing
  61.      * FAQ Section 5: Speech Synthesis
  62.      * FAQ Section 6: Speech Recognition
  63.        
  64. Comp.Speech FTP Site
  65.  
  66.    The comp.speech ftp site (which is described in Q1.2) contains the
  67.    following:
  68.      * Newsgroup Archives
  69.      * Data Resources
  70.      * General Information
  71.      * Software
  72.        
  73. Acknowledgements
  74.  
  75.    Hundreds of people have made contributions to the comp.speech FAQ over
  76.    the last two years; there are too many to name individually. Special
  77.    thanks go to Tony Robinson and Joe Campbell who have been particularly
  78.    helpful.
  79.    
  80. Maintainence
  81.  
  82.    The FAQ posting and the Comp.Speech WWW Site are maintained by
  83.     
  84.     Andrew Hunt
  85.     ---
  86.     Speech Technology Research Group
  87.     Dept. of Electrical Engineering
  88.     University of Sydney, NSW, 2006, Australia
  89.     Ph: 61-2-351 4509
  90.     Fax: 61-2-351 3847
  91.     email: andrewh@speech.su.oz.au
  92.  
  93.  
  94. ===========================================================================
  95.  
  96.    
  97.                            COMP.SPEECH FAQ CONTENTS
  98.                                        
  99. Introduction
  100.  
  101.      * Overview
  102.      * List of Packages
  103.        
  104. Section 1 : General Information on Speech Technology
  105.  
  106.      * Q1.1 What is comp.speech?
  107.      * Q1.2 Where are the comp.speech archives?
  108.      * Q1.3 Common abbreviations and jargon.
  109.      * Q1.4 What are related newsgroups and mailing lists?
  110.      * Q1.5 What are related journals and conferences?
  111.      * Q1.6 What resources are available as handicap aids?
  112.      * Q1.7 What speech data is available?
  113.      * Q1.8 Speech File Formats, Conversion and Playing.
  114.      * Q1.9 What "Speech Laboratory Environments" are available?
  115.      * Q1.10 Miscelaneous Software and Other Resources.
  116.        
  117. Section 2 : Signal Processing for Speech
  118.  
  119.      * Q2.1 What sampling do I need for speech?
  120.      * Q2.2 How do I find the pitch of a speech signal?
  121.      * Q2.3 How do I find the start and end points of a speech signal?
  122.      * Q2.4 Where can I find FFT software?
  123.      * Q2.5 What signal processing techniques are used in speech
  124.        technology?
  125.      * Q2.6 What speech sampling and signal processing hardware can I
  126.        use?
  127.      * Q2.7 How do I convert to/from mu-law format?
  128.        
  129. Section 3 : Speech Coding and Compression
  130.  
  131.      * Q3.1 Speech compression techniques.
  132.      * Q3.2 What are some good references/books on coding/compression?
  133.      * Q3.3 What software is available? (Includes CELP & G.7xx)
  134.        
  135. Section 4 : Natural Language Processing
  136.  
  137.      * Q4.1 What are some good references/books on NLP?
  138.      * Q4.2 What NLP software is available?
  139.        
  140. Section 5 : Speech Synthesis
  141.  
  142.      * Q5.1 What is speech synthesis?
  143.      * Q5.2 How can speech synthesis be performed?
  144.      * Q5.3 What are some good references/books on synthesis?
  145.      * Q5.4 What software/hardware is available?
  146.        
  147. Section 6 : Speech Recognition
  148.  
  149.      * Q6.1 What is speech recognition?
  150.      * Q6.2 How can I build a very simple speech recogniser?
  151.      * Q6.3 What does speaker dependent/adaptive/independent mean?
  152.      * Q6.4 What does small/medium/large/very-large vocabulary mean?
  153.      * Q6.5 What does continuous speech or isolated-word mean?
  154.      * Q6.6 How is speech recognition done?
  155.      * Q6.7 What are some good references/books on recognition?
  156.      * Q6.8 What speech recognition packages are available?
  157.  
  158.  
  159. ===========================================================================
  160.  
  161.    
  162. FAQ: List of Packages
  163.  
  164.     The comp.speech FAQ provides information on a range of software,
  165.    hardware and resources.
  166.    
  167. Speech Data
  168.  
  169.      * Phonemic Samples
  170.      * Linguistic Data Consortium (LDC)
  171.      * Center for Spoken Language Understanding (CSLU)
  172.      * PhonDat - A Large Database of Spoken German
  173.      * Oxford Acoustic Phonetic Database
  174.        
  175. Speech Processing Environments
  176.  
  177.      * Entropic Signal Processing System (ESPS) and Waves
  178.      * CSRE: Canadian Speech Research Environment
  179.      * OGI Speech Tools
  180.      * Matlab plus Signal Processing Toolbox
  181.      * Signalyze 3.0 from InfoSignal
  182.      * Kay Elemetrics CSL (Computer Speech Lab) 4300
  183.      * MacSpeech Lab II (MSL II)
  184.      * N!Power
  185.      * Ptolemy
  186.      * Khoros
  187.      * SpeechViewer II
  188.        
  189. Other Resources
  190.  
  191.      * CMU Dictionary
  192.      * Another Dictionary
  193.      * BEEP dictionary
  194.      * CUVOLAD dictionary
  195.      * MRC database
  196.      * Network Audio System
  197.      * NEVOT (1.4v) from AT&T; BL
  198.      * Human Audio Perception Document
  199.      * Homophone List
  200.      * Auditory Toolbox for Matlab
  201.      * Auditory Modeller 1
  202.      * Auditory Modeller 2
  203.        
  204. Audio I/O Hardware
  205.  
  206.      * Sun standard audio port (SPARC I & II)
  207.      * Sun standard audio port (SPARC 10 & 20)
  208.      * Ariel Signal Processors
  209.      * IBM RS/6000 ACPA (Audio Capture and Playback Adapter)
  210.      * Sound Galaxy NX , Aztech Systems
  211.      * Sound Galaxy NX PRO, Aztech Systems
  212.      * ATI Stereo F/X Sound Board
  213.      * Various PC Sound Cards
  214.        
  215. Compression Software and Hardware
  216.  
  217.      * File format conversion
  218.      * shorten - a lossless compressor for speech signals
  219.      * 32 kbps ADPCM
  220.      * GSM 06.10 Compression
  221.      * G.721/722/723 Compression
  222.      * G.728 Compression
  223.      * G.728 LD-CELP vocoder
  224.      * U.S.F.S. 1016 CELP vocoder for DSP56001
  225.      * 8 Kbit/s CELP on the TMS320C5x family of DSP chips
  226.      * CELP 3.2a & LPC
  227.        
  228. Natural Language Processing
  229.  
  230.      * Natural Language Software Registry (NLSR) - NLP Tools
  231.      * Part of Speech Tagger
  232.        
  233. Speech Synthesis
  234.  
  235.      * Orator Text-to-Speech Synthesizer
  236.      * Text to phoneme program (1)
  237.      * Text to phoneme program (2)
  238.      * Text to phoneme program (3)
  239.      * Text to speech program
  240.      * "Speak" - a Text to Speech Program
  241.      * TheBigMouth - a Text to Speech Program
  242.      * TextToSpeech Kit
  243.      * SGI Developers Toolbox Synthesiser
  244.      * rsynth
  245.      * SENSYN speech synthesizer
  246.      * spchsyn.exe
  247.      * CSRE: Canadian Speech Research Environment
  248.      * Eloquence (currently an alpha release)
  249.      * JSRU
  250.      * Klatt-style synthesiser
  251.      * DECTalk
  252.      * Speech Manager and PlainTalk
  253.      * Various Mac Speech Output Applications
  254.      * MacinTalk
  255.      * Monologue by Creative Labs
  256.      * Lernout & Hauspie Text-To-Speech SDK
  257.      * Tinytalk
  258.      * Narrator - narrator.device
  259.      * Infovox Product Range
  260.      * SIMTEL-20
  261.        
  262. Speech Recognition
  263.  
  264.      * HM2007 - Speech Recognition Chip
  265.      * Voice Blaster Ver. 4.0
  266.      * Votan
  267.      * Entropic's HTK (HMM Toolkit)
  268.      * DragonDictate version 3.0
  269.      * DragonDictate for Windows
  270.      * DragonVoiceTools
  271.      * IBM Personal Dictation System
  272.      * Osborne Personal Dictation System (in Australia)
  273.      * VoiceServer for Windows
  274.      * IN3 Voice Command for Windows
  275.      * IN3 Voice Command
  276.      * Phonetic Engine 400 (PE400) - Speech Systems, Inc.
  277.      * SayIt
  278.      * Kurzweil Voice for Windows 1.0
  279.      * D6006 Voice Control Processor
  280.      * Speech Commander - Listen for Windows
  281.      * Voice-Trek 2.0
  282.      * Visus SpeechKit
  283.      * recnet
  284.      * Lotec Speech Recognition Package
  285.      * Myers' Hidden Markov Model software
  286.      * Voice Command Line Interface
  287.      * DATAVOX - French
  288.      * PowerSecretary
  289.      * ICSS system from IBM
  290.      * Creative VoiceAssist
  291.  
  292.  
  293. ===========================================================================
  294.  
  295.    
  296. FAQ SECTION 1 - General
  297.  
  298.   Q1.1: WHAT IS COMP.SPEECH?
  299.   
  300.    Comp.speech is a newsgroup for discussion of speech technology and
  301.    speech science. It covers a wide range of issues from application of
  302.    speech technology, to research, to products and lots more. By nature
  303.    speech technology is an inter-disciplinary field and the newsgroup
  304.    reflects this. However, computer application is the basic theme of the
  305.    group.
  306.    
  307.    The following is a list of topics but does not cover all matters
  308.    related to the field (no order of importance is implied).
  309.      * Speech Recognition - discussion of methodologies, training,
  310.        techniques, results and applications. This should cover the
  311.        application of techniques including HMMs, neural-nets and so on to
  312.        the field.
  313.        
  314.      * Speech Synthesis - discussion concerning theoretical and
  315.        practical issues associated with the design of speech synthesis
  316.        systems.
  317.        
  318.      * Speech Coding and Compression - both research and application
  319.        matters.
  320.        
  321.      * Phonetic/Linguistic Issues - coverage of linguistic and phonetic
  322.        issues which are relevant to speech technology applications. Could
  323.        cover parsing, natural language processing, phonology and prosodic
  324.        work.
  325.        
  326.      * Speech System Design - issues relating to the application of
  327.        speech technology to real-world problems. Includes the design of
  328.        user interfaces, the building of real-time systems and so on.
  329.        
  330.      * Other matters - relevant conferences, jobs, books, software,
  331.        hardware, and products.
  332.        
  333.      _________________________________________________________________
  334.    
  335.   Q1.2: WHERE ARE THE COMP.SPEECH ARCHIVES?
  336.   
  337.    comp.speech is being archived for anonymous ftp.
  338.      * ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/archive/
  339.        
  340.    comp.speech/archive contains the articles as they arrive. Batches of
  341.    100 articles are grouped into a shar file, along with an associated
  342.    file of Subject lines.
  343.    
  344.    Other useful information is also available in comp.speech/info.
  345.      _________________________________________________________________
  346.    
  347.   Q1.3: COMMON ABBREVIATIONS AND JARGON.
  348.      * ANN - Artificial Neural Network.
  349.      * ASR - Automatic Speech Recognition.
  350.      * ASSP - Acoustics Speech and Signal Processing
  351.      * AVIOS - American Voice I/O Society
  352.      * CELP - Code-book Excited Linear Prediction.
  353.      * COLING - Computational Linguistics
  354.      * DTW - Dynamic Time Warping.
  355.      * FAQ - Frequently Asked Questions.
  356.      * HMM - Hidden Markov Model.
  357.      * IEEE - Institute of Electrical and Electronics Engineers
  358.      * JASA - Journal of the Acoustic Society of America
  359.      * LPC - Linear Predictive Coding.
  360.      * LVQ - Learned Vector Quantisation.
  361.      * NLP - Natural Language Processing.
  362.      * NN - Neural Network.
  363.      * TI - Texas Instruments.
  364.      * TIMIT - A large speech corpus from TI and MIT - see Q1.7
  365.      * TTS - Text-To-Speech (i.e. synthesis).
  366.      * VQ - Vector Quantisation.
  367.        
  368.      _________________________________________________________________
  369.    
  370.   Q1.4: WHAT ARE RELATED NEWSGROUPS AND MAILING LISTS?
  371.   
  372.       Newsgroups
  373.       
  374.    comp.ai - Artificial Intelligence newsgroup.
  375.           Postings on general AI issues, language processing and AI
  376.           techniques. Has a good FAQ including NLP, NN and other AI
  377.           information.
  378.           
  379.    comp.ai.nat-lang - Natural Language Processing Group
  380.           Postings regarding Natural Language Processing. Set up to cover
  381.           a broard range of related issues and different viewpoints.
  382.           
  383.    comp.ai.nlang-know-rep - Natural Language Knowledge Representation
  384.           Moderated group covering Natural Language.
  385.           
  386.    comp.ai.neural-nets - discussion of Neural Networks and related
  387.           issues.
  388.           There are often posting on speech related matters - phonetic
  389.           recognition, connectionist grammars and so on.
  390.           
  391.    comp.compression - occasional articles on compression of speech.
  392.           FAQ for comp.compression has some info on audio compression
  393.           standards.
  394.           
  395.    comp.dcom.telecom - Telecommunications newsgroup.
  396.           Has occasional articles on voice products.
  397.           
  398.    comp.dsp - discussion of signal processing - hardware and algorithms
  399.           and more.
  400.           Has a good FAQ posting. Has a regular posting of a
  401.           comprehensive list of Audio File Formats.
  402.           
  403.    comp.multimedia - Multi-Media discussion group.
  404.           Has occasional articles on voice I/O.
  405.           
  406.    sci.lang - Language.
  407.           Discussion about phonetics, phonology, grammar, etymology and
  408.           lots more.
  409.           
  410.    alt.sci.physics.acoustics
  411.           Some discussion of speech production & perception.
  412.           
  413.    alt.binaries.sounds.misc - posting of various sound samples
  414.           
  415.    alt.binaries.sounds.d - discussion about sound samples, recording
  416.           and playback.
  417.           
  418.       Mailing Lists
  419.       
  420.    ECTL - Electronic Communal Temporal Lobe
  421.           Founder & Moderator: David Leip. Moderated mailing list for
  422.           researchers with interests in computer speech interfaces. This
  423.           list serves a broad community including persons from signal
  424.           processing, AI, linguistics and human factors. To subscribe,
  425.           send your name, institute, department, daytime phone and email
  426.           address to:
  427.           
  428.           + ectl-request@snowhite.cis.uoguelph.ca
  429.             
  430.    The ECTL archive site is
  431.           
  432.           + ftp://snowhite.cis.uoguelph.ca/pub/ectl
  433.             
  434.    Prosody Mailing List
  435.           Unmoderated mailing list for discussion of prosody. The aim is
  436.           to facilitate the spread of information relating to the
  437.           research of prosody by creating a network of researchers in the
  438.           field. If you want to participate, send the following one-line
  439.           message to
  440.           
  441.           + listserv@msu.edu
  442.           + subscribe prosody Your Name
  443.             
  444.    foNETiks
  445.           A moderated monthly newsletter distributed by e-mail. It
  446.           carries job advertisements, notices of conferences, and other
  447.           news of general interest to phoneticians, speech scientists and
  448.           others The editors are Linda Shockey and Gerry Docherty. To
  449.           subscribe send the following 1 line message to
  450.           
  451.           + mailbase@mailbase.ac.uk
  452.           + join fonetiks your_first_name your_second_name
  453.             
  454.    Digital Mobile Radio
  455.           Covers lots of areas include some speech topics including
  456.           speech coding and speech compression. Mail Peter Decker
  457.           dec@dfv.rwth-aachen.de to subscribe.
  458.           
  459.      _________________________________________________________________
  460.    
  461.   Q1.5: WHAT ARE RELATED JOURNALS AND CONFERENCES?
  462.   
  463.    Try the following commercially oriented magazine:
  464.      * Voice News - monthly industry newsletter
  465.     Stoneridge Technical Services
  466.     PO Box 1891, Rockville, MD, 20850, USA
  467.     Phone: (301) 424-0114
  468.      * Voice Technology News
  469.      * Voice Processing Magazine (1-800-854-3112)
  470.      * Speech Technology (no longer published)
  471.        
  472.    Try the following technical journals (some contact addresses below):-
  473.      * IEEE Transactions on Speech and Audio Processing (from Jan 93)
  474.      * IEEE Signal Processing Magazine (from Jan 93)
  475.      * IEEE Transactions on Acoustics, Speech, and Signal Processing
  476.        (ASSP) (now obsolete)
  477.      * Computational Linguistics (COLING)
  478.      * Computer Speech and Language
  479.      * Journal of the Acoustical Society of America (JASA)
  480.      * AVIOS Journal
  481.      * ASR News
  482.        
  483.    Try the following conferences:-
  484.      * ICASSP Intl. Conference on Acoustics Speech and Signal Processing
  485.        (IEEE)
  486.      * ICSLP Intl. Conference on Spoken Language Processing
  487.      * EUROSPEECH European Conference on Speech Communication and
  488.        Technology
  489.      * AVIOS American Voice I/O Society Conference
  490.      * SST Australian Speech Science and Technology Conference
  491.        
  492.    Here are a few contact addresses:- 
  493.    
  494.    Publications:
  495.           IEEE Transactions on Speech and Audio Processing (from Jan 93)
  496.           IEEE Transactions on Acoustics, Speech, and Signal Processing
  497.           (ASSP) - now obsolete.
  498.           
  499.    Organization:
  500.           Institute of Electrical and Electronics Engineers (IEEE)
  501.           
  502.    Contact:
  503.           IEEE Service Center
  504.           445 Hoes Lane, PO Box 1331, Piscataway, NJ 08855, USA
  505.           Phone: 1-800-678-IEEE or (201)981-0060 
  506.           
  507.    Publications:
  508.           Computer Speech and Language
  509.           
  510.    Contact:
  511.           Academic Press, Ltd.
  512.           24-28 Oval Rd, London NW1, England
  513.           
  514.    Price:
  515.           $136 (Institutions), $58 (Individuals) 
  516.           
  517.    Publications:
  518.           Association for Computational Linguistics
  519.           
  520.    Organization:
  521.           Association for Computational Linguistics
  522.           MIT Press Journals
  523.           55 Hayward St, Cambridge, MA 02142, USA
  524.           Phone: (617)253-2889
  525.           
  526.      _________________________________________________________________
  527.    
  528.   Q1.6: WHAT RESOURCES ARE AVAILABLE AS HANDICAP AIDS?
  529.   
  530.    Can anyone provide information on speech technology aids for the deaf,
  531.    blind, speech impaired, physically impaired and other groups who may
  532.    benefit from speech technology?
  533.    
  534.     SpeechViewer II
  535.      * Platform: IBM Machines from Mod 25 on.
  536.      * Description: SpeechViewer II is a speech therapy tool. It
  537.        provided graphical feedback of various speech features so that
  538.        speech impaired individuals can improve their speech. It works
  539.        with an audio bandwidth of 7.3 Khz and thus allows the therapist
  540.        to work with sustained vowels and fricatives. A wide range of
  541.        graphics are used to provide adequate variability to hold client
  542.        interest. An extensive set of statistics are gathered which allows
  543.        a therapist to do research or keep therapy records. The speech
  544.        therapy modules are:
  545.           + Awareness - Sound, Loudness, Pitch, Voicing Onset, Voicing
  546.           + Skill Building - Pitch, Voicing, Phonology
  547.           + Patterning - Pitch & Loudness - Waveform & Spectrogram,
  548.             Spectra
  549.           + Clinical Management - Profiles, Models, Client Data
  550.      * Hardware: Requires an IBM M-ACPA (Multimedia-Audio Capture
  551.        Playback Adapter). It has a TI TMS320C25 DSP chip. The input
  552.        sampling rate is 44.1 Khz stereo, 88.2 Khz mono. This is a 16 bit
  553.        card. It has the following jacks: mic in, stereo line in, stereo
  554.        line out, speaker out. Note: This card is being replaced by Mwave
  555.        technology. For more info on Mwave contact Texas Instruments.
  556.      * Price:
  557.           + The software is $2130 list, $1491 educational, part number
  558.             92F2066.
  559.           + The M-ACPA is $370 list, $222 educational, part number
  560.             92F3378.
  561.           + The MicroChannel adapter part number is 92F3379 (same price).
  562.      * Contact: The Psychological Corporation (TPC) [IBM Authorized
  563.        Remarketer]
  564.     Phone: 1-800-228-0752 or contact IBM on 1-800-426-4832.
  565.     
  566.      _________________________________________________________________
  567.    
  568.   Q1.7: WHAT SPEECH DATA IS AVAILABLE?
  569.   
  570.    A wide range of speech databases have been collected. These databases
  571.    are primarily for the development of speech synthesis/recognition and
  572.    for linguistic research.
  573.    
  574.    Some databases are free but most appear to be available for a small
  575.    cost. The databases normally require lots of storage space - do not
  576.    expect to be able to ftp all the data you want.
  577.    
  578.     Phonemic Samples
  579.      * First, some basic data. The following ftp sites have samples of
  580.        English phonemes (American accent I believe) in Sun audio format
  581.        files. See Question 1.8 for information on audio file formats.
  582.           + ftp://sounds.sdsu.edu/.1/phonemes: This ftp site appears to
  583.             be obsolete. Does anyone know a new address?
  584.           + ftp://phloem.uoregon.edu/pub/Sun4/lib/phonemes : There
  585.             appears to be some config problem with this ftp server.
  586.           + ftp://sunsite.unc.edu/pub/multimedia/sun-sounds/phonemes
  587.             
  588.     Linguistic Data Consortium (LDC)
  589.      * Briefly stated, the LDC has been established to broaden the
  590.        collection and distribution of speech and natural language data
  591.        bases for the purposes of research and technology development in
  592.        automatic speech recognition, natural language processing and
  593.        other areas where large amounts of linguistic data are needed.
  594.        Here is list of some of the corpora:
  595.           + The TIMIT and NTIMIT speech corpora
  596.           + The Resource Management speech corpus (RM1, RM2)
  597.           + The Air Travel Information System (ATIS0) speech corpus
  598.           + The Association for Computational Linguistics - Data
  599.             Collection Initiative text corpus (ACL-DCI)
  600.           + The TI Connected Digits speech corpus (TIDIGITS)
  601.           + The TI 46-word Isolated Word speech corpus (TI-46)
  602.           + The Road Rally conversational speech corpora (including
  603.             "Stonehenge" and "Waterloo" corpora)
  604.           + The Tipster Information Retrieval Test Collection
  605.           + The Switchboard speech corpus ("Credit Card" excerpts and
  606.             portions of the complete Switchboard collection)
  607.      * Further resources made available in the first year (or two):
  608.           + The Machine-Readable Spoken English speech corpus (MARSEC)
  609.           + The Edinburgh Map Task speech corpus
  610.           + The Message Understanding Conference (MUC) text corpus of FBI
  611.             terrorist reports
  612.           + The Continuous Speech Recognition - Wall Street Journal
  613.             speech corpus (WSJ-CSR)
  614.           + The Penn Treebank parsed/tagged text corpus
  615.           + The Multi-site ATIS speech corpus (ATIS2)
  616.           + The Air Traffic Control (ATC) speech corpus
  617.           + The Hansard English/French parallel text corpus
  618.           + The European Corpus Initiative multi-language text corpus
  619.             (ECI)
  620.           + The Int'l Labor Organization/Int'l Trade Union multi-language
  621.             text corpus (ILO/ITU)
  622.           + Machine-readable dictionaries/lexical data bases (COMLEX,
  623.             CELEX)
  624.      * Detailed information about the Linguistic Data Consortium is
  625.        available by anonymous from the address below. The files in the
  626.        directory include more detailed information on the individual
  627.        databases.
  628.           + ftp://ftp.cis.upenn.edu/pub/ldc
  629.      * For further information contact
  630.     Linguistic Data Consortium
  631.     441 Williams Hall, University of Pennsylvania
  632.     Philadelphia, PA 19104-6305
  633.     Phone: +1 (215) 898-0464
  634.     Fax: +1 (215) 573-2175
  635.     e-mail: ldc@unagi.cis.upenn.edu
  636.     
  637.     Center for Spoken Language Understanding (CSLU)
  638.      * The ISOLET speech database of spoken letters of the English
  639.        alphabet. The speech is high quality (16 kHz with a noise
  640.        cancelling microphone). 150 speakers x 26 letters of the English
  641.        alphabet twice in random order. The ISOLET data base can be
  642.        purchased for $100 by sending an email request to
  643.        vincew@cse.ogi.edu. (This covers handling, shipping and medium
  644.        costs). The data base comes with a technical report describing the
  645.        data.
  646.      * CSLU has a telephone speech corpus of 1000 English alphabets.
  647.        Callers recite the alphabet with brief pauses between letters.
  648.        This database is available to not-for-profit institutions for
  649.        $100. The data base is described in the proceedings of the
  650.        International Conference on Spoken Language Processing.
  651.           + Contact vincew@cse.ogi.edu if interested.
  652.      * CSLU has released for universities its Continuous English Speech
  653.        Corpus. The corpus contains recorded speech from 690 different
  654.        speakers, with label files at various levels - including word
  655.        level and phonetic labels. The data were collected as part of the
  656.        OGI Multi-language telephone corpus. CSLU provides speech corpora
  657.        to all universities without charge. To order a corpus, print the
  658.        license agreement/order form, complete it, and fax it to the CSLU.
  659.        A description of the corpora and an order form are available by
  660.        anonymous ftp:
  661.           + ftp://speech.cse.ogi.edu/pub/releases
  662.      * Contact: Mike Noel -
  663.     email: noel@cse.ogi.edu Phone: (503) 690-1309
  664.     
  665.     PhonDat - A Large Database of Spoken German
  666.      * The PhonDat continuous speech corpora are now available on CD-ROM
  667.        media (ISO 9660 format).
  668.           + PhonDat I (Diphone Corpus) : 6 CDs (1140.- DM)
  669.           + PhonDat II (Train Enquiries Corpus): 1 CD ( 190.- DM)
  670.      * PhonDat I comprises approx. 20.000, PhonDat II approx. 1500 signal
  671.        files in high quality 16-bit 16 KHz recording. The corpora come
  672.        with documentation containing the orthographic transcription and a
  673.        citation form of the utterances, as well as a detailed file format
  674.        description. A narrow phonetic transcription is available for
  675.        selected files from corpus I and II.
  676.      * For information and orders contact
  677.     Barbara Eisen
  678.     Institut fuer Phonetik
  679.     Schellingstr. 3 / II
  680.     D 80799 Munich 40
  681.     Tel: +49 / 89 / 2180 -2454 or -2758
  682.     Fax: +49 / 89 / 280 03 62
  683.     
  684.     Oxford Acoustic Phonetic Database
  685.      * Available on compact disc, from J. Pickering and B. Rosner. It
  686.        contains data on vowel-consonant and consonant-vowel combinations
  687.        in both stressed and unstressed locations. The language covered
  688.        include French, German, Hungarian, Italian, Japanese, British
  689.        English, Spanish and English. For further information write to
  690.     Electronic Publishing, Oxford University
  691.     Press, Walton Street, Oxford OX2 6DP, UK.
  692.     The ISBN is 0-19-268086-2
  693.      * Contact:
  694.     Prof. B. Rosner
  695.     Dept. of Experimental Psychology
  696.     South Parks Rd, Oxford, OX1 3UD, UK
  697.     email: burton.rosner@wolfson.ox.ac.uk
  698.     
  699.      _________________________________________________________________
  700.    
  701.   Q1.8: SPEECH FILE FORMATS, CONVERSION AND PLAYING.
  702.   
  703.    Section 2 of this FAQ has information on mu-law coding.
  704.    
  705.    A very good and very comprehensive list of audio file formats is
  706.    prepared by Guido van Rossum. The list is posted regularly to comp.dsp
  707.    and alt.binaries.sounds.misc, amongst others. It includes information
  708.    on sampling rates, hardware, compression techniques, file format
  709.    definitions, format conversion, standards, programming hints and lots
  710.    more. It is also available by ftp from
  711.      * ftp://ftp.cwi.nl/pub/audio/AudioFormats.part1,2
  712.        
  713.      _________________________________________________________________
  714.    
  715.   Q1.9: WHAT "SPEECH LABORATORY ENVIRONMENTS" ARE AVAILABLE?
  716.   
  717.    First, what is a Speech Laboratory Environment? A speech lab is a
  718.    software package which provides the capability of recording, playing,
  719.    analysing, processing, displaying and storing speech. Your computer
  720.    will require audio input/output capability. The different packages
  721.    vary greatly in features and capability - best to know what you want
  722.    before you start looking around.
  723.    
  724.    Most general purpose audio processing packages will be able to process
  725.    speech but do not necessarily have some specialised capabilities for
  726.    speech (e.g. formant analysis).
  727.    
  728.    The following article provides a good survey.
  729.      * Read, C., Buder, E., & Kent, R. "Speech Analysis Systems: An
  730.        Evaluation" Journal of Speech and Hearing Research, pp 314-332,
  731.        April 1992.
  732.        
  733.     Entropic Signal Processing System (ESPS) and Waves
  734.      * Platform: Range of Unix platforms.
  735.      * Description: ESPS is a comprehensive set of speech
  736.        analysis/processing tools for the UNIX environment. The package
  737.        includes UNIX commands, and a comprehensive C library (which can
  738.        be accessed from other languages). Waves is a graphical front-end
  739.        for speech processing. Speech waveforms, spectrograms, pitch
  740.        traces etc can be displayed, edited and processed in X windows and
  741.        Openwindows (versions 2 & 3). Waves also includes a signal
  742.        labelling utility which provides multiple feature labelling and
  743.        useful features for fast labelling of large speech databases.
  744.        Entropic also distributes HTK (the Hidden Markov Model Toolkit).
  745.        HTK is described in Section 6 of this FAQ.
  746.      * Cost: On request.
  747.      * Contact:
  748.     Entropic Research Laboratory, Washington Research Laboratory
  749.     600 Pennsylvania Ave, S.E. Suite 202, Washington, D.C. 20003
  750.     (202) 547-1420
  751.     email - info@entropic.com
  752.     
  753.     CSRE: Canadian Speech Research Environment
  754.      * Platform: IBM/AT-compatibles
  755.      * Description: CSRE is a microcomputer-based system designed to
  756.        support speech research. CSRE provides a low-cost facility in
  757.        support of speech research, using mass-produced and
  758.        widely-available hardware. The project is non-profit, and relies
  759.        on the cooperation of researchers at a number of institutions and
  760.        fees generated when the software is distributed. Functions include
  761.        speech capture, editing, and replay; several alternative spectral
  762.        analysis procedures, with color and surface/3D displays; parameter
  763.        extraction/ tracking and tools to automate measurement and support
  764.        data logging; alternative pitch-extraction systems; parametric
  765.        speech (KLATT80) and non-speech acoustic synthesis, with a variety
  766.        of supporting productivity tools; and an experiment generator, to
  767.        support behavioral testing using a variety of common testing
  768.        protocols. A paper about the whole package can be found in:
  769.           + Jamieson D.G. et al, "CSRE: A Speech Research Environment",
  770.             Proc. of the Second Intl. Conf. on Spoken Language
  771.             Processing, Edmonton: University of Alberta, pp. 1127-1130.
  772.      * Hardware: Can use a range of data aqcuisition/DSP hardware
  773.      * Cost: Distributed on a cost recovery basis.
  774.      * Availability: For more information on availability contact
  775.     Krystyna Marciniak
  776.     email march@uwovax.uwo.ca
  777.     Tel (519) 661-3901 Fax (519) 661-3805.
  778.    For technical information
  779.     email ramji@uwovax.uwo.ca
  780.      * Note: Also included in Q5.4 on speech synthesis packages.
  781.        
  782.     OGI Speech Tools
  783.      * Developers from the Center for Spoken Language Understanding
  784.        (CSLU) at the Oregon Graduate Institute of Science and Technology
  785.        (Portland Oregon)
  786.      * Platform: Unix
  787.      * Description: The OGI Speech tools include :
  788.           + An X windows display tool (LYRE) for displaying data in a
  789.             time synchronous fashion for a. the speech signal b.
  790.             spectrograms c. phoneme labels, and other information.
  791.           + A Neural Network (NOPT) training package.
  792.           + An set of C library routines (LIBNSPEECH) for the
  793.             manipulation of speech data, including: a. PLP Analysis, b.
  794.             Rasta PLP Analysis, c. Linear Predictive Coding, d. Mel
  795.             Cepstrum Coding, e. Fast Fourier Transform
  796.           + A set of utilities for converting file formats such as ADC,
  797.             NIST, mu-law, binary files, and ascii. Includes filtering.
  798.           + A database utility (find_phone) to automate speech database
  799.             related enquiries. It allows the user to specify a particular
  800.             label or set of labels in a given context, display all
  801.             occurrences of the label, and relabel the occurrences if
  802.             desired.
  803.           + A Vector-Quantizer based on the Linde Buzo and Gray (LBG)
  804.             algorithm.
  805.           + A set of PERL Scripts which have been used mainly to automate
  806.             the use of the OGI Speech Tools.
  807.           + MAN Pages for all routines and programs developed, as well as
  808.             a User manual in both in postscript and tex format.
  809.      * Misc: Software is written in ANSI C.
  810.      * Availability: By anonymous ftp from
  811.           + ftp://speech.cse.ogi.edu/pub/tools/
  812.      * Contact: Try tools@cse.ogi.edu
  813.        
  814.     Matlab plus Signal Processing Toolbox
  815.      * Platform: Wide range
  816.      * Description: Matlab (MATrix LABoratory) is a technical computing
  817.        environment for numerical computation and visualization based on a
  818.        matrix oriented, interpreted programming language. The programming
  819.        environment provides support for the development of customized
  820.        operations, along with debugging facilities and a graphical user
  821.        interface toolkit. Audio output is provided.
  822.        
  823.        A specialised Signal Processing Toolbox is available which
  824.        provides many functions which are useful for speech analysis. It
  825.        includes filter design, spectral estimation, statistical signal
  826.        processing, waveform generation, and signal and spectrogram
  827.        display.
  828.        
  829.        A specialised Auditory Toolbox is available which contains
  830.        functions useful to people interested in auditory/cochlear models.
  831.        A more detailed description is given in Q1.10.
  832.      * Price: On request.
  833.      * Contact: The Math Works Inc.
  834.     24 Prime Park Way, Natick, MA 01760-1500 USA
  835.     Ph: 1-508-653 1415 Fax: 1-508-653 6284
  836.     Email: info@mathworks.com
  837.      * FTP: ftp://ftp.mathworks.com
  838.      * WWW: http://www.mathworks.com/
  839.        
  840.     Signalyze 3.0 from InfoSignal
  841.      * Platform: Macintosh
  842.      * Description: Signalyze's basic conception revolves around up to
  843.        100 signals, displayed synchronously in HyperCard fashion on
  844.        "cards". The program offers a complement of signal editing
  845.        features, quite a few spectral analysis tools, manual scoring
  846.        tools, pitch extraction routines, a good set of signal
  847.        manipulation tools, and extensive input-output capacity.
  848.        
  849.        Handles multiple file formats: Signalyze, MacSpeech Lab,
  850.        AudioMedia, SoundDesigner II, SoundEdit/MacRecorder, SoundWave,
  851.        three sound resource formats, and ASCII-text. Sound I/O: Direct
  852.        sound input from MacRecorder and similar devices, AudioMedia,
  853.        AudioMedia II and AD IN, some MacADIOS boards and devices, Apple
  854.        sound input (built-in microphone). Sound output via Macintosh
  855.        internal sound, via SoundManager 3.0, some MacADIOS boards and
  856.        devices as well as via the Digidesign 16-bit boards.
  857.        
  858.        It has a range of capabilities for creating, editing and
  859.        manipulating label files with flexibility in labelling format.
  860.      * Compatibility: MacPlus and higher (including II, IIx, IIcx,
  861.        IIci, IIfx, IIvx, IIvi, Portable, all PowerBooks, Centris and
  862.        Quadras). Takes advantage of large and multiple screens and 16/256
  863.        color/grayscales. System 7.0 compatible. Runs in background with
  864.        adjustable priority.
  865.      * Misc: A demo available upon request. Manuals and tutorial
  866.        included. It is available in English, French, and German. An
  867.        UPDATER to version 2.48 is now available in:
  868.           + - The UNIL Gopher server (see last page of InfoSignal News 8)
  869.           + - The LAIP FTP server. Address: MACFL4082.unil.ch, machine
  870.             no. 130.223.104.31
  871.    Also available are a demo program, and current questions and answers.
  872.      * Cost: Individual licence US$350, site license US$500, plus
  873.        shipping. Upgrades from version 2.0 are available.
  874.      * Contact:
  875.     North America - Network Technology Corporation
  876.     91 Baldwin St., Charlestown MA 02129
  877.     Fax: 617-241-5064 Phone: 617-241-9205
  878.    Elsewhere contact
  879.     InfoSignal Inc.
  880.     C.P. 73, 1015 LAUSANNE, Switzerland,
  881.     FAX: +41 21 691-1372,
  882.     Email: 76357.1213@COMPUSERVE.COM.
  883.     
  884.     Kay Elemetrics CSL (Computer Speech Lab) 4300
  885.      * Platform: Minimum IBM PC-AT compatible with extended memory (min
  886.        2MB) with at least VGA graphics. Optimal would be 386 or 486
  887.        machine with more RAM for handling larger amounts of data.
  888.      * Description: Speech analysis package, with optional separate LPC
  889.        program for analysis/synthesis. Uses its own file format for data,
  890.        but has some ability to export data as ascii. The main
  891.        editing/analysis prog (but not the LPC part) has its own macro
  892.        language, making it easy to perform repetitive tasks. Probably not
  893.        much use without the extra LPC program, which also allows
  894.        manipulation of pitch, formant and bandwidth parameters.
  895.        
  896.        Hardware includes an internal DSP board for the PC (requires ISA
  897.        slot), and an external module containing signal processing chips
  898.        which does A/D and D/A conversion.
  899.      * Misc: A programmers kit is available for programming signal
  900.        processing chips (experts only). A speaker and microphone are
  901.        supplied. Manuals are included.
  902.      * Cost: Recently approx 6000 pounds sterling.
  903.      * Contact:
  904.     UK distributors are Wessex Electronics,
  905.     114-116 North Street, Downend, Bristol, B16 5SE
  906.     Tel: 0272 571404.
  907.    In the USA contact:
  908.     Kay Elemetrics Corp,
  909.     12 Maple Avenue, PO Box 2025, Pine Brook, NJ 07058-9798
  910.     Tel:(201) 227-7760
  911.     
  912.     MacSpeech Lab II (MSL II)
  913.      * Platform: Macintosh
  914.      * Description: A sound analysis and acquisition for Macs. MSL II
  915.        delivers the most common functions for speech analysis (FFTs,
  916.        LPCs, f0 extraction, etc.) & produces grayscale spectrographic
  917.        displays. Can be used for various speech technology and phonetic
  918.        training tasks. The software an trade off accuracy and speech.
  919.      * Hardware: Requires MacADIOS ("Macintosh Analog/Digital
  920.        Input/Output System") hardware for speech I/O at 12/16 bits.
  921.      * Misc: Software no longer updated by GW Instruments; MSL
  922.        soft/hardware will not perform input/output on Quadras, for
  923.        example, though analysis seems fine. Known to operate properly on
  924.        systems as high as IIcx & II fx.
  925.      * Cost: $4990 (in May '92 price list; no MSL soft/hardware package
  926.        listed in January '93).
  927.      * Contact:
  928.     GW Instruments
  929.     35 Medford Street, Somerville, MA 02143
  930.     Phone: (617) 625-4096 Fax: (617) 625-1322
  931.     
  932.     N!Power
  933.      * Platform: SUN, DEC and HP workstations.
  934.      * Description: An object-oriented software package with a MOTIF
  935.        GUI interface and a range of functionality for data
  936.        analysis/editing, signal analysis, speech processing, real-time
  937.        A/D and D/A, and 2D/3D interactive graphics. N!Power replaces ILS.
  938.        
  939.        N!Power can provide a Block Diagram user interface, menus,
  940.        pop-ups, and a high-level IEEE standard symbolic scripting
  941.        language. You can customize the blocks, menus and pop-ups with
  942.        mouse point-and-click operations.
  943.      * Contact:
  944.     Signal Technology, Inc.
  945.     104 W. Anapamu, Suite J, Santa Barbara, CA 93101-3126
  946.     Phone: 805-899-8300 FAX: 805-899-4344
  947.     email: larry@signal.com
  948.     
  949.     Ptolemy
  950.      * Platform: Sun SPARC, DecStation (MIPS), HP (hppa).
  951.      * Description: Ptolemy provides a highly flexible foundation for
  952.        the specification, simulation, and rapid prototyping of systems.
  953.        It is an object oriented framework within which diverse models of
  954.        computation can co-exist and interact. Ptolemy can be used to
  955.        model entire systems.
  956.        
  957.        Ptolemy has been used for a broad range of applications including
  958.        signal processing, telecomunications, parallel processing,
  959.        wireless communications, network design, radio astronomy, real
  960.        time systems, and hardware/software co-design. Ptolemy has also
  961.        been used as a lab for signal processing and communications
  962.        courses. Ptolemy has been developed at UC Berkeley over the past 3
  963.        years. Further information, including papers and the complete
  964.        release notes, is available from the FTP site.
  965.      * Cost: Free
  966.      * Availability: The source code, binaries, and documentation are
  967.        available by anonymous ftp from
  968.           + ftp://ptolemy.berkeley.edu/pub/README
  969.             
  970.     Khoros
  971.      * Description: Public domain image processing package with a basic
  972.        DSP library. Not particularly applicable to speech, but not bad
  973.        for the price.
  974.      * Cost: Free
  975.      * Availability: By anonymous ftp from ftp://pprg.eece.unm.edu
  976.        
  977.     SpeechViewer II
  978.      * Description: Speech Therapy Tool. See the detailed description
  979.        in the handicap section - Q1.6.
  980.        
  981.      _________________________________________________________________
  982.    
  983.   Q1.10: MISCELANEOUS SOFTWARE AND OTHER RESOURCES.
  984.   
  985.     CMU dictionary
  986.      * Description: Phonemic transcriptions of 100,000 words with
  987.        American English pronunciation.
  988.      * Availability: By anonymous ftp from the directory
  989.           + ftp://ftp.cs.cmu.edu/project/fgdata/dict
  990.    with the files README, cmudict.0.2.Z, cmulex.0.1.Z, phoneset.0.1
  991.        
  992.     Dictionary
  993.      * Description: A comprehensive word list which should contain most
  994.        common American words, abbreviations, hyphenations, and even
  995.        incorrect spellings. The word lists were compiled from a number of
  996.        sources: commercial news services, UseNet news postings, existing
  997.        dictionaries, name lists, company lists, UNIX man pages, project
  998.        Gutenberg's E-texts, project Wordnet, received mailings, etc. The
  999.        current size is 460,000 words.
  1000.      * Availability: By anonymous ftp from
  1001.           + ftp://wocket.vantage.gte.com:/pub/standard_dictionary
  1002.    
  1003.        Note 1: There seems to be some sort of network problem reaching
  1004.        the server.
  1005.        Note 2: There is a README file which explains the file formats.
  1006.        
  1007.     BEEP dictionary
  1008.      * Description: Phonemic transcriptions of 100,000 English words.
  1009.        (British English pronunciations)
  1010.      * Availability: By anonymous ftp from the file
  1011.           + svr-ftp.eng.cam.ac.uk/comp.speech/data/beep-0.3.tar.Z
  1012.             
  1013.     CUVOLAD dictionary
  1014.      * Description: Computer Usable Version of the Oxford Advanced
  1015.        Learner's Dictionary Has British English pronunciations and parts
  1016.        of speech
  1017.      * Availability: By anonymous ftp from the directory
  1018.           + ftp://black.ox.ac.uk/ota/dicts/710
  1019.             
  1020.     MRC database
  1021.      * Description: The Medical Research Council Psycholinguistic
  1022.        Database Has British English pronunciations, parts of speech, word
  1023.        frequency and lots of other information.
  1024.      * Availability: By anonymous ftp from the directory
  1025.           + ftp://black.ox.ac.uk/ota/dicts/1054
  1026.             
  1027.     Network Audio System Release 1.1
  1028.      * Platforms: Various (includes SunOS, Solaris, SGI)
  1029.      * Description: A device-independent mechanism for transferring,
  1030.        playing and recording audio signals over a network. Has a range of
  1031.        features suited to networks.
  1032.      * Cost: Free
  1033.      * Availability: By anonymous ftp from
  1034.           + ftp://ftp.x.org:/contrib/audio/nas/netaudio-1.2.tar.gz
  1035.    Also available in the same directory are document files and some
  1036.        sample sounds.
  1037.        
  1038.     AF version AF3R1
  1039.      * Platforms: DEC workstations (Alpha and MIPS), SparcStation, SGI
  1040.      * Description: The AF System is a device-independent
  1041.        network-transparent system including client applications and audio
  1042.        servers. With AF, multiple audio applications can run
  1043.        simultaneously, sharing access to the actual audio hardware.
  1044.        
  1045.        The AF3R1 distribution of AF includes server support for Digital
  1046.        RISC systems running Ultrix, Digital Alpha AXP systems running
  1047.        OSF/1, SGI Indigo running IRIX 4.0.5, Sun Microsystems
  1048.        SPARCstations running SunOS 4.1.3, and Sun Microsystems
  1049.        SPARCstations running Solaris 2.3. The servers support audio
  1050.        hardware ranging from the built-in CODEC audio on SPARCstations
  1051.        and Personal DECstations to 48 KHz stereo audio using the DECaudio
  1052.        TURBOchannel module or the SPARCstation DBRI interface
  1053.      * Availability: The source kit is distributed by anonymous ftp
  1054.        from
  1055.           + ftp://crl.dec.com/pub/DEC/AF
  1056.      * Contact: af-request@crl.dec.com
  1057.           + http://www.research.digital.com/CRL/projects/AF/home.html
  1058.             
  1059.     NEVOT (1.4v) from AT&T; BL
  1060.      * Platforms: Sun Sparc Station (SunOS 4.1.x) and Silicon Graphics
  1061.      * Description: Audio-conferencing tool which supports both
  1062.        point-to-point and broadcasting of audio using multicast IP. Audio
  1063.        encoding:
  1064.           + PCM 64kb/s 8-bits u-law encoded 8KHz PCM (G.711)
  1065.           + ADPCM 32 kb/s [Sun only] (G.721)
  1066.           + DVI ADPCM 32 kb/s
  1067.           + ADPCM 24 kb/s [Sun only] (G.723)
  1068.           + CELP 4.8 kb/s
  1069.           + LPC 2.4 kb/s
  1070.    Source is available.
  1071.      * Availability: by anonymous ftp from
  1072.           + ftp://gaia.cs.umass.edu/pub/hgschulz/nevot
  1073.      * Contact: Henning Schulzrinne (hgs@researh.att.com)
  1074.        
  1075.     Human Audio Perception Document
  1076.      * Description: Document prepared by Argiris Kranidiotis on the
  1077.        human audio perception system. It lists a number of references,
  1078.        gives plenty of numbers and some equations.
  1079.      * Availability: by anonymous ftp from the comp.speech archive site
  1080.           +
  1081.             ftp://svr-ftp.eng.cam.ac.uk/comp.speech/info/HumanAudioPercept
  1082.             ion
  1083.      * Contact:
  1084.     Argiris A. Kranidiotis
  1085.     University Of Athens, Informatics Department
  1086.     email: akra@zeus.di.uoa.ariadne-t.gr
  1087.     
  1088.     Homophone List
  1089.      * A list of homophones in General American English is available by
  1090.        anonymous FTP from the comp.speech archive site:
  1091.           +
  1092.             ftp://svr-ftp.eng.cam.ac.uk/comp.speech/data/homophones-1.01.t
  1093.             xt
  1094.             
  1095.     Auditory Toolbox for Matlab
  1096.      * Description: This toolbox provides extensions to Matlab which
  1097.        are useful to people interested in auditory/cochlear modeling.
  1098.        [Matlab is described is the previous section.] This toolbox has
  1099.        been tested on both Macintosh and Unix computers. It includes the
  1100.        following major models:
  1101.           + Lyon's Passive Long Wave Cochlear Model (our conventional
  1102.             model)
  1103.           + Patterson-Holdsworth ERB Filter bank with Meddis Hair cell
  1104.           + Seneff's Auditory Model (Stages I and II)
  1105.           + MFCC (Mel-scale frequency cepstral coefficients from the ASR
  1106.             world)
  1107.           + Spectrogram
  1108.           + Correlogram generation and pitch modeling
  1109.           + Simple vowel synthesis
  1110.      * Availability: By anonymous FTP from the following site:
  1111.           + ftp://ftp.apple.com/pub/malcolm
  1112.    The following files are available:
  1113.           + 419487 AuditoryToolbox.mif.Z
  1114.           + 1372976 AuditoryToolbox.psc.Z
  1115.           + 573215 AuditoryToolbox.sea.hqx
  1116.           + 92160 AuditoryToolbox.tar
  1117.           + 36405 AuditoryToolbox.tar.Z
  1118.    The ".mif.Z" file is a Unix compressed version of the FrameMaker
  1119.        documentation. The ".psc.Z" file is a Unix compressed version of
  1120.        the Postscript documentation. The ".tar" and ".tar.Z" files are
  1121.        Unix TAR archives containing all of the m-functions and C-MEX
  1122.        source code. Finally, the ".sea.hqx" file is a Macintosh
  1123.        self-extracting archive that has been encoded using BinHex. We do
  1124.        provide precompiled version of the three MEX function for the
  1125.        Macintosh.
  1126.      * Misc: Our lawyers ask you to remind you that there is no
  1127.        warranty. We've done some testing but we undoubtably missed
  1128.        things.
  1129.      * Contact:
  1130.     Malcolm Slaney: Interval Resarch.
  1131.     Email: malcolm@interval.com
  1132.     
  1133.     Auditory Modeller 1
  1134.      * Description: John Holdsworth's implementation of a gammatone
  1135.        filter bank and Roy Patterson's spiral model, in C (with X-window
  1136.        display).
  1137.      * Availability: By anonymous ftp from
  1138.           + ftp://ftp.mrc-apu.cam.ac.uk/pub/aim
  1139.             
  1140.     Auditory Modeller 2
  1141.      * Description: Lowel O'Mard's implementation of peripheral
  1142.        filtering, Ray Meddis's hair cell model and other stuff in C (as a
  1143.        library of routines).
  1144.      * Availability: By anonymous ftp from
  1145.           + ftp://suna.lut.ac.uk/public/hulpo/lutear
  1146.             
  1147.      _________________________________________________________________
  1148.  
  1149.  
  1150.  
  1151.  
  1152. Andrew Hunt
  1153.   ---
  1154. Speech Technology Research Group        Ph:  61-2-351 4509
  1155. Dept. of Electrical Engineering            Fax: 61-2-351 3847
  1156. University of Sydney, NSW, 2006, Australia    email: andrewh@speech.su.oz.au
  1157. Archive-name: comp-speech-faq/part2
  1158. Last-modified: 1995/01/19
  1159.  
  1160.  
  1161.               COMP.SPEECH FAQ POSTING - PART 2/3
  1162.  
  1163.  
  1164. [Note: this document has been automatically extracted from a WWW site:
  1165.         http://www.speech.su.oz.au/comp.speech
  1166. This may introduce some formatting errors.]
  1167.  
  1168.  
  1169.  
  1170. ===========================================================================
  1171.  
  1172.    
  1173. FAQ SECTION 2 - Signal Processing for Speech
  1174.  
  1175.   Q2.1: WHAT SAMPLING DO I NEED FOR SPEECH?
  1176.   
  1177.    For recorded speech to be understood by humans you need an 8kHz
  1178.    sampling rate or more and at least 8 bit sampling. This produces poor
  1179.    quality speech - but in can be understood.
  1180.    
  1181.    Improvements can be achieved by increasing the number of bits in
  1182.    sampling to 12bits or 16bits, or by using a non-linear encoding
  1183.    technique such as mu-law or A-law (see Q2.7). This improves the
  1184.    "signal-to-noise" ratio.
  1185.    
  1186.    Increasing the sampling rate above 8kHz, say to 10kHz, 16kHz or 20Khz,
  1187.    improves the frequency response: the higher the sampling frequency the
  1188.    better the high frequency content will be. A 16kHz sampling rate is a
  1189.    reasonable target for high quality speech recording and playback.
  1190.    
  1191.    When doing speech recognition you need to remember that the your
  1192.    computer is not as good as your ear so it will have trouble with poor
  1193.    quality sounds. The choice of an appropriate sampling setup depends
  1194.    very much on the speech recognition task and the amount of computer
  1195.    power available.
  1196.      _________________________________________________________________
  1197.    
  1198.   Q2.2: HOW DO I FIND THE PITCH OF A SPEECH SIGNAL?
  1199.   
  1200.    This topic comes up regularly in the comp.dsp newsgroup. Question 2.5
  1201.    of the FAQ posting for comp.dsp gives a comprehensive list of
  1202.    references on the definition, perception and processing of pitch.
  1203.      _________________________________________________________________
  1204.    
  1205.   Q2.3: HOW DO I FIND THE START AND END POINTS OF A SPEECH SIGNAL?
  1206.   
  1207.    A large number of papers have been presented on this task. Try the
  1208.    following papers:
  1209.      * Rabiner LR, Sambur MR, "An Algorithm for Determining the Endpoints
  1210.        of Isolated Utterances", Bell System Technical Journal, Vol 54,
  1211.        No. 2, pp 297-315, 1975.
  1212.      * Drago, P.G. et al. "Digital Dynamic Speech Detectors." IEEE Trans
  1213.        on Communications, Vol 26, No 1, Jan 78, pp. 140-145.
  1214.      * Newman, W.C. "Detecting Speech with an Adapative Neural Network."
  1215.        Electronic Design. 22 March 1990.
  1216.      * Taboada. J et al "Explicit Estimation of Speech Boundaries" IEE
  1217.        Proc. Sci. Meas. Technol., Vol 141, No.3, May 1994 pp153-159.
  1218.        
  1219.      _________________________________________________________________
  1220.    
  1221.   Q2.4: WHERE CAN I FIND FFT SOFTWARE?
  1222.   
  1223.    Try the following file available by anonymous ftp. It contains a
  1224.    series of optimised fft routines, including mixed-radix algorithms.
  1225.    The .gz suffix indicates GNU zip format.
  1226.      * ftp://usc.edu/pub/C-numanal/fft-stuff.tar.gz
  1227.        
  1228.      _________________________________________________________________
  1229.    
  1230.   Q2.5: WHAT SIGNAL PROCESSING TECHNIQUES ARE USED IN SPEECH TECHNOLOGY?
  1231.   
  1232.    This question is far to big to be answered in a FAQ posting.
  1233.    Fortunately there are many good books which answer the question. Some
  1234.    good introductory books include
  1235.      * Digital processing of speech signals; L. R. Rabiner, R. W.
  1236.        Schafer. Englewood Cliffs; London: Prentice-Hall, 1978
  1237.      * Voice and Speech Processing; T. W. Parsons. New York; McGraw Hill
  1238.        1986
  1239.      * Computer Speech Processing; ed Frank Fallside, William A. Woods
  1240.        Englewood Cliffs: Prentice-Hall, c1985
  1241.      * Digital speech processing : speech coding, synthesis, and
  1242.        recognition edited by A. Nejat Ince; Kluwer Academic Publishers,
  1243.        Boston, c1992
  1244.      * Speech science and technology; edited by Shuzo Saito pub. Ohmsha,
  1245.        Tokyo, c1992
  1246.      * Speech analysis; edited by Ronald W. Schafer, John D. Markel New
  1247.        York, IEEE Press, c1979
  1248.      * Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  1249.        Addison Wesley series in Electrical Engineering: Digital Signal
  1250.        Processing, 1987.
  1251.      * Discrete-time processing of speech signals; John R Deller, John G
  1252.        Proakis, John H L Hansen; Macmillan 1993.
  1253.      * Signal processing of speech; F J Owens; Macmillan 1993.
  1254.        
  1255.      _________________________________________________________________
  1256.    
  1257.   Q2.6: WHAT SPEECH SAMPLING AND SIGNAL PROCESSING HARDWARE CAN I USE?
  1258.   
  1259.    In addition to the following information, have a look at the Audio
  1260.    File format document prepared by Guido van Rossum (see details in
  1261.    Section 1.8).
  1262.    
  1263.    Can anyone provide information on Mac, SGI, NeXT and other hardware?
  1264.    
  1265.     Sun standard audio port: SPARC I & II
  1266.      * Input and Output: 1 channel, 8 bit mu-law encoded, 8kHz sample
  1267.        rate. This provides telephone quality sampling.
  1268.        
  1269.     Sun standard audio port (SPARC 10 & 20)
  1270.      * Input and Output: Stereo (2 channels). 16-bit linear sampling.
  1271.        Multiple sample rates (48000, 44100, 37800, 32000, 22050, 18900,
  1272.        16000, 11025, 9600, 8000 Hz)
  1273.        
  1274.     Macintosh Audio Hardware - an overview
  1275.      * Description: ALL Macintosh computers come with the ability to
  1276.        play back sounds at any sample rate (sample rate conversion is
  1277.        done in software.) Older machines have 8 bit stereo output
  1278.        (hardware runs at 22254 samples/second). The newer machines have
  1279.        16 bit stereo hardare running at 44100 samples/second.
  1280.        
  1281.        Most of the recent Macintosh computers come with sound input
  1282.        hardware. There are probably exceptions to this, but the older and
  1283.        some of the current low-end machines have 8 bit (linear) mono
  1284.        hardware running at 22254.54 samples/second. All of the PowerPC,
  1285.        AV, and the 500 series notebook computers come with 16 bit 44kHz
  1286.        stereo sampling hardware. They can also record at 22050
  1287.        samples/second. The sound manager implements an AGC (Automatic
  1288.        Gain Control) function for the 8 bit hardware. The drivers have a
  1289.        switch to turn off the AGC.
  1290.        
  1291.        There are a number of DSP vendors that support high quality audio.
  1292.        Generally this means quieter analog sections, and more IO formats
  1293.        (AES/IBU, for example). Try DigiDesign and Spectral Innovations.
  1294.        
  1295.        The software drivers for sound are described in "Inside Macintosh:
  1296.        Sound". If you want to see some sample code check out the sources
  1297.        for the Matlab "Sound and Image Toolbox". They can be found at
  1298.           + ftp://ftp.apple.com/pub/malcolm/SoundAndImageToolbox.cpt.hqx
  1299.    
  1300.        Routines that play and record sounds using the toolbox are
  1301.        included (and interfaced to Matlab).
  1302.        
  1303.     Ariel Signal Processors
  1304.      * Platform: Various
  1305.      * Description: A range of signal I/O, A/D, D/A and DSP products
  1306.        are available. There are too many to list.
  1307.      * Contact:
  1308.     Ariel Corp.
  1309.     433 River Road, Highland Park, NJ 08904.
  1310.     Ph: 908-249-2900 Fax: 908-249-2123 DSP BBS: 908-249-2124
  1311.     
  1312.     IBM RS/6000 ACPA (Audio Capture and Playback Adapter)
  1313.      * Description: The card supports PCM, Mu-Law, A-Law and ADPCM at
  1314.        44.1kHz (& 22.05, 11.025, 8kHz) with 16-bits of resolution in
  1315.        stereo. The card has a built-in DSP (don't know which one). The
  1316.        device also supports various formats for the output data, like
  1317.        big-endian, twos complement, etc. Good noise immunity.
  1318.        
  1319.        The card is used for IBM's VoiceServer (they use the DSP for
  1320.        speech recognition). Apparently, the IBM voiceserver has a
  1321.        speaker-independent vocabulary of over 20,000 words and each ACPA
  1322.        can support two independent sessions at once.
  1323.      * Cost: $US495
  1324.      * Contact: ?
  1325.        
  1326.     Sound Galaxy NX , Aztech Systems
  1327.      * Platform: PC - DOS,Windows 3.1
  1328.      * Cost: ?
  1329.      * Input: 8bit linear, 4-22 kHz.
  1330.      * Output: 8bit linear, 4-44.1 kHz
  1331.      * Misc: 11-voice FM Music Synthesizer YM3812; Built-in power
  1332.        amplifier; DSP signal processing support - ST70019SB Hardware
  1333.        ADPCM decompression (2:1,3:1,4:1) "AdLib" and "Sound Blaster"
  1334.        compatbility. Software includes a simple Text-to-Speech program
  1335.        "Monologue".
  1336.        
  1337.     Sound Galaxy NX PRO, Aztech Systems
  1338.      * Platform: PC - DOS,Windows 3.1
  1339.      * Cost: ?
  1340.      * Input: 2 * 8bit linear, 4-22.05 kHz(stereo), 4-44.1 KHz(mono).
  1341.      * Output: 2 * 8bit linear, 4-44.1 kHz(stereo/mono)
  1342.      * Misc: 20-voice FM Music Synthesizer; Built-in power amplifier;
  1343.        Stereo Digital/Analog Mixer; Configuration in EEPROM. Hardware
  1344.        ADPCM decompression (2:1,3:1,4:1). Includes DSP signal processing
  1345.        support. "AdLib" and "Sound Blaster Pro II" compatybility.
  1346.        Software includes a simple Text-to-Speech program "Monologue" and
  1347.        Sampling laboratory for Windows 3.1: WinDAT.
  1348.      * Contact: USA (510)6238988
  1349.        
  1350.     ATI Stereo F/X Sound Board
  1351.      * Platform: PC XT or AT - DOS, Windows 3.0, 3.1
  1352.      * Cost: $120 Canadian
  1353.      * Description: Input - 8 bit ADC, 44.1 kHz mono, 22.05 kHz Stereo.
  1354.        Output - Dynamic range = 48 dB, 32 anti-aliasing filters. Adds
  1355.        Stereo effect to existing mono Adlib or Sound Blaster apps.
  1356.        11-voice YAMAHA FM Music Synthesizer. Built-in 8 watt power
  1357.        amplifier, 4 watts per channel. Volume ctrl on rear. 2 Joystick
  1358.        input, software setup (no switches), software included. "AdLib"
  1359.        and "Sound Blaster" compatibility. DMA support for high speed
  1360.        digital audio. ADPCM decomp @ 4:1, 3:1, 2:1. Will play .WAV files.
  1361.        Optional MIDI I/O port $79. (MIDI IN, OUT, THRU, and sequencer).
  1362.      * Contact:
  1363.     ATI Technologies Inc.
  1364.     3761 Victoria Park Avenue, Scarborough, Ontario
  1365.     CANADA, M1W 3S2
  1366.     Ph: (416) 756-0711 Fax: (416) 756-0720
  1367.     BBS: (416) 764-9404 (9600 baud N.8.1)
  1368.     
  1369.     Other PC Sound Cards
  1370. ============================================================================
  1371. sound          stereo/mono              compatible     included   voices
  1372. card           & sample rate            with           ports
  1373. ============================================================================
  1374. Adlib Gold     stereo: 8-bit 44.1khz    Adlib ?        audio      20 (opl3)
  1375. 1000                  16-bit 44.1khz                   in/out,    +2 digital
  1376.                mono: 8-bit 44.1khz                     mic in,    channels
  1377.                     16-bit 44.1khz                     joystick,
  1378.                                                        MIDI
  1379.  
  1380. Sound Blaster  mono: 8-bit 22.1khz      Adlib          audio       11 synth.
  1381.                FM synth with                           in/out,
  1382.                2 operators                             joystick,
  1383.  
  1384. Sound Blaster  stereo: 8-bit 22.05khz   Adlib          audio       22
  1385. Pro Basic      mono: 8-bit 44.1khz      Sound Blaster  in/out,
  1386.                                                        joystick,
  1387.  
  1388. Sound Blaster  stereo: 8-bit 22.05khz   Adlib          audio       11
  1389. Pro            mono: 8-bit 44.1khz      Sound Blaster  in/out
  1390.                                                        joystick,
  1391.                                                        MIDI, SCSI
  1392.  
  1393. Sound Blaster  stereo: 8-bit 4-44.1khz  Sound Blaster  audio       20
  1394. 16 ASP         stereo: 16-bit 4-44.1khz                in/out,
  1395.                                                        joystick,
  1396.                                                        MIDI
  1397.  
  1398. Audio Port     mono: 8-bit 22.05khz     Adlib          audio       11
  1399.                                         Sound Blaster  in/out,
  1400.                                                        joystick
  1401.  
  1402. Pro Audio      stereo: 8-bit 44.1khz    Adlib          audio,      20
  1403. Spectrum +                              Pro Audio      in/out,
  1404.                                         Spectrum       joystick
  1405.  
  1406. Pro Audio      stereo: 16-bit 44.1khz   Adlib          audio       20
  1407. Spectrum 16                             Pro Audio      in/out,
  1408.                                         Spectrum       joystick,
  1409.                                         Sound Blaster  MIDI, SCSI
  1410.  
  1411. Thunder Board  stereo: 8-bit 22khz      Adlib          audio       11
  1412.                                         Sound Blaster  in/out,
  1413.                                                        joystick
  1414.  
  1415. Gravis         stereo: 8-bit 44.1khz    Adlib,         audio line  32 sampled
  1416. Ultrasound     mono: 8-bit 44.1khz      Sound Blaster  in/out,     32 synth.
  1417.                                                        amplified
  1418.                                                        out,
  1419.                (w/16-bit daughtercard)                 mic in, CD
  1420.                stereo: 16-bit 44.1khz                  audio in,
  1421.                mono: 16-bit 44.1khz                    daughterboard
  1422.                                                        ports (for
  1423.                                                        SCSI and
  1424.                                                        16-bit)
  1425.  
  1426. MultiSound     stereo: 16-bit 44.1kHz   Nothing        audio       32 sampled
  1427.                64x oversampling                        in/out,
  1428.                                                        joystick,
  1429.                                                        MIDI
  1430.  
  1431. =============================================================================
  1432.  
  1433.      _________________________________________________________________
  1434.    
  1435.   Q2.7: HOW DO I CONVERT TO/FROM MU-LAW FORMAT?
  1436.   
  1437.    Mu-law coding is a form of compression for audio signals including
  1438.    speech. It is widely used in the telecommunications field because it
  1439.    improves the signal-to-noise ratio without increasing the amount of
  1440.    data. Typically, mu-law compressed speech is carried in 8-bit samples.
  1441.    It is a companding technqiue. That means that carries more information
  1442.    about the smaller signals than about larger signals.
  1443.    
  1444.    On SUN Sparc systems have a look in the directory /usr/demo/SOUND.
  1445.    Included are table lookup macros for ulaw conversions. [Note however
  1446.    that not all systems will have /usr/demo/SOUND installed as it is
  1447.    optional - see your system admin if it is missing.]
  1448.    
  1449.    OR, here is some sample conversion code in C.
  1450. /**
  1451.  ** Signal conversion routines for use with Sun4/60 audio chip
  1452.  **/
  1453.  
  1454. #include stdio.h
  1455.  
  1456. unsigned char linear2ulaw(/* int */);
  1457. int ulaw2linear(/* unsigned char */);
  1458.  
  1459. /*
  1460. ** This routine converts from linear to ulaw
  1461. **
  1462. ** Craig Reese: IDA/Supercomputing Research Center
  1463. ** Joe Campbell: Department of Defense
  1464. ** 29 September 1989
  1465. **
  1466. ** References:
  1467. ** 1) CCITT Recommendation G.711  (very difficult to follow)
  1468. ** 2) "A New Digital Technique for Implementation of Any
  1469. **     Continuous PCM Companding Law," Villeret, Michel,
  1470. **     et al. 1973 IEEE Int. Conf. on Communications, Vol 1,
  1471. **     1973, pg. 11.12-11.17
  1472. ** 3) MIL-STD-188-113,"Interoperability and Performance Standards
  1473. **     for Analog-to_Digital Conversion Techniques,"
  1474. **     17 February 1987
  1475. **
  1476. ** Input: Signed 16 bit linear sample
  1477. ** Output: 8 bit ulaw sample
  1478. */
  1479.  
  1480. #define ZEROTRAP    /* turn on the trap as per the MIL-STD */
  1481. #define BIAS 0x84   /* define the add-in bias for 16 bit samples */
  1482. #define CLIP 32635
  1483.  
  1484. unsigned char
  1485. linear2ulaw(sample)
  1486. int sample; {
  1487.   static int exp_lut[256] = {0,0,1,1,2,2,2,2,3,3,3,3,3,3,3,3,
  1488.                              4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,
  1489.                              5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
  1490.                              5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,
  1491.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  1492.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  1493.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  1494.                              6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,6,
  1495.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1496.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1497.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1498.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1499.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1500.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1501.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,
  1502.                              7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7};
  1503.   int sign, exponent, mantissa;
  1504.   unsigned char ulawbyte;
  1505.  
  1506.   /* Get the sample into sign-magnitude. */
  1507.   sign = (sample >> 8) & 0x80;          /* set aside the sign */
  1508.   if (sign != 0) sample = -sample;              /* get magnitude */
  1509.   if (sample > CLIP) sample = CLIP;             /* clip the magnitude */
  1510.  
  1511.   /* Convert from 16 bit linear to ulaw. */
  1512.   sample = sample + BIAS;
  1513.   exponent = exp_lut[(sample >> 7) & 0xFF];
  1514.   mantissa = (sample >> (exponent + 3)) & 0x0F;
  1515.   ulawbyte = ~(sign | (exponent << 4) | mantissa);
  1516. #ifdef ZEROTRAP
  1517.   if (ulawbyte == 0) ulawbyte = 0x02;   /* optional CCITT trap */
  1518. #endif
  1519.  
  1520.   return(ulawbyte);
  1521. }
  1522.  
  1523. /*
  1524. ** This routine converts from ulaw to 16 bit linear.
  1525. **
  1526. ** Craig Reese: IDA/Supercomputing Research Center
  1527. ** 29 September 1989
  1528. **
  1529. ** References:
  1530. ** 1) CCITT Recommendation G.711  (very difficult to follow)
  1531. ** 2) MIL-STD-188-113,"Interoperability and Performance Standards
  1532. **     for Analog-to_Digital Conversion Techniques,"
  1533. **     17 February 1987
  1534. **
  1535. ** Input: 8 bit ulaw sample
  1536. ** Output: signed 16 bit linear sample
  1537. */
  1538.  
  1539. int
  1540. ulaw2linear(ulawbyte)
  1541. unsigned char ulawbyte;
  1542. {
  1543.   static int exp_lut[8] = {0,132,396,924,1980,4092,8316,16764};
  1544.   int sign, exponent, mantissa, sample;
  1545.  
  1546.   ulawbyte = ~ulawbyte;
  1547.   sign = (ulawbyte & 0x80);
  1548.   exponent = (ulawbyte >> 4) & 0x07;
  1549.   mantissa = ulawbyte & 0x0F;
  1550.   sample = exp_lut[exponent] + (mantissa << (exponent + 3));
  1551.   if (sign != 0) sample = -sample;
  1552.  
  1553.   return(sample);
  1554. }
  1555.  
  1556.      _________________________________________________________________
  1557.  
  1558.  
  1559. ===========================================================================
  1560.  
  1561.    
  1562. FAQ SECTION 3 - Speech Coding and Compression
  1563.  
  1564.   Q3.1: SPEECH COMPRESSION TECHNIQUES.
  1565.   
  1566.    Can anyone provide a 1-2 page summary on speech compression?
  1567.    
  1568.    Note: the FAQ for comp.compression includes a few questions and
  1569.    answers on the compression of speech.
  1570.      _________________________________________________________________
  1571.    
  1572.   Q3.2: WHAT ARE SOME GOOD REFERENCES/BOOKS ON CODING/COMPRESSION?
  1573.      * Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  1574.        Addison Wesley series in Electrical Engineering: Digital Signal
  1575.        Processing, 1987.
  1576.      * Bishnu Atal in ed. Fallside, F. and W. Woods, ed. Computer Speech
  1577.        Processing. London: Prentice/Hall International, 1985.
  1578.      * Makhoul, J. "Linear Prediction: A Tutorial Review." Proc. of the
  1579.        IEEE 63 (1975): 561 - 580.
  1580.        
  1581.      _________________________________________________________________
  1582.    
  1583.   Q3.3: WHAT SPEECH COMPRESSION/CODING SOFTWARE IS AVAILABLE?
  1584.   
  1585.    Note: there are two types of speech compression technique referred to
  1586.    below. Lossless technqiues preserve the speech through a
  1587.    compression-decompression phase. Lossy techniques do not preserve the
  1588.    speech prefectly. As a general rule, the more you compress speech, the
  1589.    more the quality degardes.
  1590.    
  1591.     File format conversion
  1592.      * Platform: SUN OS?
  1593.      * Description: Conversion utility able to encode and decode
  1594.        between the the following formats: G.723, G.721, A-law, u-law and
  1595.        linear.
  1596.      * Availability: By anonymous ftp from
  1597.           + ftp://ftp.cwi.nl/pub/audio/ccitt-adpcm.tar.Z
  1598.             
  1599.     shorten - a lossless compressor for speech signals
  1600.      * Platform: UNIX/DOS
  1601.      * Description: A fast waveform coder suitable for a speech and
  1602.        music signals in a wide variety of file formats. The degree of
  1603.        compression is adjustable from lossless to three bits a sample.
  1604.        16bit 16kHz speech generally attains 50% lossless compression and
  1605.        16:3 compression of CDROM quality speech is obtainable with only
  1606.        minor audiable degredation.
  1607.      * Availability: Anonymous ftp - UNIX and DOS versions are in
  1608.           +
  1609.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/shorten-1.
  1610.             14.tar.Z
  1611.           +
  1612.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/shn114.zip
  1613.             
  1614.     32 kbps ADPCM
  1615.      * Platform: SGI and Sun Sparcs
  1616.      * Description: 32 kbps ADPCM C-source code (G.721 compatibility is
  1617.        uncertain)
  1618.      * Contact: Jack Jansen
  1619.      * Availablity: Anoymous ftp
  1620.           + ftp://ftp.cwi.nl/pub/adpcm.shar
  1621.             
  1622.     GSM 06.10 Compression
  1623.      * Platform: Unix; faster than real time on most Sun SPARCstations
  1624.      * Description: GSM 06.10 is a standardized lossy speech
  1625.        compression employed by most European wireless telephones. It uses
  1626.        RPE/LTP (residual pulse excitation/long term prediction) coding to
  1627.        compress frames of 160 13-bit samples (8 kHz sampling rate, i.e. a
  1628.        frame rate of 50 Hz) into 260 bits.
  1629.      * Contact: GSM 06.10 support and implementation
  1630.        jutta@cs.tu-berlin.de, cabo@cs.tu-berlin.de
  1631.      * Availability: The following configurations are available be
  1632.        anonymous ftp:
  1633.           + gzip compression from Germany:
  1634.             ftp://ftp.cs.tu-berlin.de/pub/local/kbs/tubmik/gsm/gsm-1.0.5.
  1635.             tar.gz
  1636.           + MS-DOS compression from Germany:
  1637.             ftp://ftp.cs.tu-berlin.de/pub/local/kbs/tubmik/gsm/gsm-105.zi
  1638.             p
  1639.           + MS-DOS compression from USA:
  1640.             ftp://ftp.mv.com/pub/ddj/1194.12/gsm-105.zip
  1641.      * Misc: The WWW site is
  1642.           + http://www.cs.tu-berlin.de/~jutta/toast.html
  1643.             
  1644.     G.711/721/723 Compression
  1645.      * Description:
  1646.           + G.711 : CCITT u-law and A-law compression
  1647.           + G.721 : CCITT 32 kbps ADPCM coder
  1648.           + G.723 : CCITT 24 kbps and 40 kbps ADPCM coders
  1649.      * Availability: By email to teledoc@itu.arcom.ch, with
  1650.                 GET ITU-3022
  1651.    as the *only* line in the body of the message. This is also available
  1652.        by anonymous ftp from:
  1653.           +
  1654.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/G711_G721_
  1655.             G723.tar.Z
  1656.             
  1657.     G.728 Compression
  1658.      * Description: G.728 low delay celp package written by Alex
  1659.        Zatsman of Analog Devices, Inc.
  1660.      * Availability: By anonymous ftp from
  1661.           + ftp://dspsun.eas.asu.edu/pub/speech/ldcelp.tgz
  1662.             
  1663.     G.728 LD-CELP vocoder
  1664.      * Platform: Analog Devices ADSP-2171
  1665.      * Description: Real-time, full-duplex G.728 LD-CELP vocoder that
  1666.        runs on a single Analog Devices ADSP-2171. Source and object code
  1667.        available for a one-time license fee.
  1668.      * Contact:
  1669.     Cole Erskine
  1670.     Analogical Systems
  1671.     299 California Avenue, Suite 120
  1672.     Palo Alto, CA 94306, USA
  1673.     Tel:(415) 323-3232 FAX:(415) 323-4222
  1674.     Internet: cole@analogical.com
  1675.     
  1676.     U.S.F.S. 1016 CELP vocoder for DSP56001
  1677.      * Platform: DSP56001
  1678.      * Description: Real-time U.S.F.S. 1016 CELP vocoder that runs on a
  1679.        single 27MHz Motorola DSP56001. Free demo software available for
  1680.        PC-56 and PC-56D. Source and object code available for a one-time
  1681.        license fee.
  1682.      * Contact:
  1683.     Cole Erskine
  1684.     Analogical Systems
  1685.     299 California Avenue, Suite 120
  1686.     Palo Alto, CA 94306, USA
  1687.     Tel:(415) 323-3232 FAX:(415) 323-4222
  1688.     Email: cole@analogical.com
  1689.     
  1690.     8 Kbit/s CELP on the TMS320C5x family of DSP chips
  1691.      * Description: For low bandwidth transmission of voice, compact
  1692.        voice storage for archival purposes, low-cost digital answering
  1693.        machines and efficient storage for voice mail. Features :
  1694.           + near toll quality at 8 Kb/s.
  1695.           + Variable rate option with 1 Kb/s silence encoding.
  1696.           + Implemented on a fixed-point processor for lower system cost.
  1697.           + Attractive licensing scheme.
  1698.           + Future availability of 4 Kb/s.
  1699.           + Custom rates possible.
  1700.    Capacity :
  1701.           + Two half-duplex or one full duplex channels on the 20 MIPS
  1702.             'C5x (at 95% and 55% CPU utilization respectively).
  1703.           + Two full duplex channels on the 28.6 MIPS 'C5x (at 77% CPU
  1704.             utilization).
  1705.           + Requires 9 K-words program memory and 3 K-words data memory.
  1706.           + Decoding in real-time on a 486 class CPU.
  1707.      * Contact:
  1708.     CVI Inc.
  1709.     443 Vienna Cres. North Vancouver, BC, Canada V7N 3B3
  1710.     Tel: (604) 987 1719 Fax: (604) 986 8139
  1711.     Email: cvi@extropia.wimsey.com
  1712.     
  1713.     CELP 3.2a & LPC
  1714.      * Platform: Sun (the makefiles & source can be modified for other
  1715.        platforms)
  1716.      * Description: CELP is lossy compression technqiue. The U.S. DoD's
  1717.        Federal-Standard-1016 based 4800 bps code excited linear
  1718.        prediction voice coder version 3.2a (CELP 3.2a) Fortran and C
  1719.        simulation source codes. Available for worldwide distribution (on
  1720.        DOS diskettes, but configured to compile on Sun SPARC stations)
  1721.        from NTIS and DTIC. Example input and processed speech files are
  1722.        included. A Technical Information Bulletin (TIB), "Details to
  1723.        Assist in Implementation of Federal Standard 1016 CELP," and the
  1724.        official standard, "Federal Standard 1016, Telecommunications:
  1725.        Analog to Digital Conversion of Radio Voice by 4,800 bit/second
  1726.        Code Excited Linear Prediction (CELP)," are also available.
  1727.      * Availability 1: Through the National Technical Information
  1728.        Service:
  1729.     NTIS
  1730.     U.S. Department of Commerce
  1731.     5285 Port Royal Road, Springfield, VA 22161, USA
  1732.    
  1733.        The "AD" ordering number for the CELP software is AD M000 118 (US$
  1734.        90.00) and for the TIB it's AD A256 629 (US$ 17.50). The LPC-10
  1735.        standard, described below, is FIPS Pub 137 (US$ 12.50). There is a
  1736.        $3.00 shipping charge on all U.S. orders. The telephone number for
  1737.        their automated system is 703-487-4650, or 703-487-4600 if you'd
  1738.        prefer to talk with a real person.
  1739.        
  1740.        (U.S. DoD personnel and contractors can receive the package from
  1741.        the Defense Technical Information Center: DTIC, Building 5,
  1742.        Cameron Station, Alexandria, VA 22304-6145. Their telephone number
  1743.        is 703-274-7633.)
  1744.      * Availability 2: By anonymous ftp from:
  1745.           + ftp://ftp.super.org(192.31.192.1)/pub/celp_3.2a.tar.Z
  1746.           + OR
  1747.             ftp://svr-ftp.eng.cam.ac.uk/comp.speech/sources/celp_3.2a.tar
  1748.             .Z
  1749.      * Misc: The following articles describe the Federal-Standard-1016
  1750.        4.8-kbps CELP coder (it's unnecessary to read more than one):
  1751.           + Campbell, Joseph P. Jr., Thomas E. Tremain and Vanoy C.
  1752.             Welch, "The Federal Standard 1016 4800 bps CELP Voice Coder,"
  1753.             Digital Signal Processing, Academic Press, 1991, Vol. 1, No.
  1754.             3, p. 145-155.
  1755.           + Campbell, Joseph P. Jr., Thomas E. Tremain and Vanoy C.
  1756.             Welch, "The DoD 4.8 kbps Standard (Proposed Federal Standard
  1757.             1016)," in Advances in Speech Coding, ed. Atal, Cuperman and
  1758.             Gersho, Kluwer Academic Publishers, 1991, Chapter 12, p.
  1759.             121-133.
  1760.           + Campbell, Joseph P. Jr., Thomas E. Tremain and Vanoy C.
  1761.             Welch, "The Proposed Federal Standard 1016 4800 bps Voice
  1762.             Coder: CELP," Speech Technology Magazine, April/May 1990, p.
  1763.             58-64.
  1764.    
  1765.        The U.S. DoD's Federal-Standard-1015/NATO-STANAG-4198 based 2400
  1766.        bps linear prediction coder (LPC-10) was republished as a Federal
  1767.        Information Processing Standards Publication 137 (FIPS Pub 137).
  1768.        It is described in:
  1769.           + Thomas E. Tremain, "The Government Standard Linear Predictive
  1770.             Coding Algorithm: LPC-10," Speech Technology Magazine, April
  1771.             1982, p. 40-49.
  1772.    
  1773.        There is also a section about FS-1015 in the book:
  1774.           + Panos E. Papamichalis, Practical Approaches to Speech Coding,
  1775.             Prentice-Hall, 1987.
  1776.    
  1777.        The voicing classifier used in the enhanced LPC-10 (LPC-10e) is
  1778.        described in:
  1779.           + Campbell, Joseph P., Jr. and T. E. Tremain, "Voiced/ Unvoiced
  1780.             Classification of Speech with Applications to the U.S.
  1781.             Government LPC-10E Algorithm," Proceedings of the IEEE
  1782.             International Conf. on Acoustics, Speech, and Signal
  1783.             Processing, 1986, p. 473-6.
  1784.    Copies of the official standard, "Federal Standard 1016, Tele-
  1785.        communications: Analog to Digital Conversion of Radio Voice by
  1786.        4,800 bit/second Code Excited Linear Prediction (CELP)" are
  1787.        available for US$ 5.00 each from:
  1788.     GSA Federal Supply Service Bureau
  1789.     Specification Section, Suite 8100
  1790.     470 E. L'Enfant Place, S.W.
  1791.     Washington, DC 20407
  1792.     (202)755-0325
  1793.    Realtime DSP code for FS-1015 and FS-1016 is sold by:
  1794.     John DellaMorte, DSP Software Engineering
  1795.     165 Middlesex Tpk, Suite 206, Bedford, MA 01730, USA
  1796.     Ph: 1-617-275-3733 Fax: 1-617-275-4323
  1797.     dspse.bedford@channel1.com
  1798.    DSP Software Engineering's FS-1016 code can run on a DSP Research's
  1799.        Tiger 30 (a PC board with a TMS320C3x and analog interface suited
  1800.        to development work).
  1801.     DSP Research
  1802.     1095 E. Duane Ave, Sunnyvale, CA 94086, USA
  1803.     Ph: (408)773-1042 Fax: (408)736-3451
  1804.     
  1805.      _________________________________________________________________
  1806.  
  1807.  
  1808. ===========================================================================
  1809.  
  1810.    
  1811. FAQ SECTION 4 - Natural Language Processing
  1812.  
  1813.    There is now a newsgroup specifically for Natural Language Processing.
  1814.    It is called comp.ai.nat-lang.
  1815.    
  1816.    There is also a lot of useful information on Natural Language
  1817.    Processing in the FAQ for comp.ai. That FAQ lists available software
  1818.    and useful references. It includes a substantial list of software,
  1819.    documentation and other info available by ftp.
  1820.      _________________________________________________________________
  1821.    
  1822.   Q4.1: WHAT ARE SOME GOOD REFERENCES/BOOKS ON NLP?
  1823.   
  1824.    Take a look at the FAQ for the "comp.ai" newsgroup as it also includes
  1825.    some useful references.
  1826.      * James Allen: Natural Language Understanding, (Benjamin/Cummings
  1827.        Series in Computer Science) Menlo Park: Benjamin/Cummings
  1828.        Publishing Company, 1987.
  1829.           + This book consists of four parts: syntactic processing,
  1830.             semantic interpretation, context and world knowledge, and
  1831.             response generation.
  1832.      * G. Gazdar and C. Mellish, Natural Language Processing in Prolog,
  1833.        Addison Wesley, 1989
  1834.      * G. Gazdar and C. Mellish, Natural Language Processing in Lisp,
  1835.        Addison Wesley, 1989
  1836.      * G. Gazdar and C. Mellish, Natural Language Processing in Pop11,
  1837.        Addison Wesley, 1989
  1838.           + Emphasis on parsing, especially unification-based parsing,
  1839.             lots of details on the lexicon, feature propagation, etc.
  1840.             Fair coverage of semantic interpretation, inference in
  1841.             natural language processing, and pragmatics; much less
  1842.             extensive than in Allen's book, but more formal. There are
  1843.             three versions, one for each programming language listed
  1844.             above, with complete code.
  1845.      * Shapiro, Stuart C.: Encyclopedia of Artificial Intelligence Vol.1
  1846.        and 2. New York: John Wiley & Sons, 1990.
  1847.           + There are articles on the different areas of natural language
  1848.             processing which also give additional references.
  1849.      * Paris, Ce'cile L.; Swartout, William R.; Mann, William C.:
  1850.        Natural Language Generation in Artificial Intelligence and
  1851.        Computational Linguistics. Boston: Kluwer Academic Publishers,
  1852.        1991.
  1853.           + The book describes the most current research developments in
  1854.             natural language generation and all aspects of the generation
  1855.             process are discussed. The book is comprised of three
  1856.             sections: one on text planning, one on lexical choice, and
  1857.             one on grammar.
  1858.      * Readings in Natural Language Processing, ed by B. Grosz, K.
  1859.        Sparck Jones and B. Webber, Morgan Kaufmann, 1986
  1860.           + A collection of classic papers on Natural Language
  1861.             Processing. Fairly complete at the time the book came out
  1862.             (1986) but now seriously out of date. Still useful for ATN's,
  1863.             etc.
  1864.      * Klaus K. Obermeier, Natural Language Processing Technologies in
  1865.        Artificial Intelligence: The Science and Industry Perspective,
  1866.        Ellis Horwood Ltd, John Wiley & Sons, Chichester, England, 1989.
  1867.        
  1868.     Journals
  1869.     
  1870.    The major journals of the field are
  1871.      * Computational Linguistics and Cognitive Science for the
  1872.        artificial intelligence aspects,
  1873.      * Cognition for the psychological aspects,
  1874.      * Language and Linguistics and Philosophy and Linguistic
  1875.        Inquiry for the linguistic aspects.
  1876.      * Artificial Intelligence occasionally has papers on natural
  1877.        language processing.
  1878.        
  1879.     Conferences
  1880.     
  1881.    The major conferences of the field are
  1882.      * ACL (held every year)
  1883.      * and COLING (held every two years). Most AI conferences have a NLP
  1884.        track; AAAI, ECAI, IJCAI and the Cognitive Science Society
  1885.        conferences usually are the most interesting for NLP. CUNY is an
  1886.        important psycholinguistic conference. There are lots of
  1887.        linguistic conferences: the most important seem to be NELS, the
  1888.        conference of the Chicago Linguistic Society (CLS), WCCFL, LSA,
  1889.        the Amsterdam Colloquium, and SALT.
  1890.        
  1891.      _________________________________________________________________
  1892.    
  1893.   Q4.2: WHAT NLP SOFTWARE IS AVAILABLE?
  1894.   
  1895.    Check the comments at the start of this section for information on
  1896.    other newsgroups and sources of information on NLP.
  1897.    
  1898.     Natural Language Software Registry (NLSR) - NLP Tools
  1899.      * The Natural Language Software Registry is available from the
  1900.        German Research Institute for Artificial Intelligence (DFKI) in
  1901.        Saarbrucken. Its purpose is to facilitate the exchange and
  1902.        evaluation of natural language processing software within the
  1903.        research community. To this end, the NLSR is cataloging natural
  1904.        language software projects, both commercial and non- commercial.
  1905.        The new updated and enlarged version contains more than 100
  1906.        descriptions of natural processing software. Registry listings
  1907.        include:
  1908.           + speech signal processors, such as the Computerized Speech Lab
  1909.             (Kay Elemetrics)
  1910.           + morphological analyzers, such as PC-KIMMO (Summer Institute
  1911.             for Linguistics)
  1912.           + parsers, such as Alveytools (University of Edinburgh)
  1913.           + semantic and pragmatic analyzer, such as NLL (University of
  1914.             the Saarland, Germany)
  1915.           + generation programs, such as FUF (Ben Gurion University of
  1916.             the Negev)
  1917.           + knowledge representation systems, such as Rhet (University of
  1918.             Rochester)
  1919.           + multicomponent systems, such as ELU (ISSCO), PENMAN (ISI),
  1920.             Pundit (UNISYS), SNePS (SUNY Buffalo),
  1921.           + NLP-Tools, such as GULP (University of Georgia) or Linguist
  1922.             (Kansai Research Laboratory)
  1923.           + applications programs (misc.)
  1924.      * If you have developed a piece of software for natural language
  1925.        processing that other researchers might find useful, you can
  1926.        include it by returning the questionnaire available from the
  1927.        sources below.
  1928.      * ftp://ftp.dfki.uni-sb.de/pub/registry
  1929.      * e-mail: registry@dfki.uni-sb.de
  1930.      * post:
  1931.     Natural Language Software Registry
  1932.     Deutsches Forschungsinstitut fuer Kuenstliche Intelligenz (DFKI)
  1933.     Stuhlsatzenhausweg 3
  1934.     D-66123 Saarbruecken
  1935.     Germany
  1936.      * Other ftp sites are
  1937.           + ftp://crlftp.nmsu.edu/pub/non-lexical/NL_Software_Registy
  1938.           + ftp://dri.cornell.edu/pub/Natural_Language_Software_Registry
  1939.             
  1940.     Part of Speech Tagger
  1941.      * Description: A rule-based part pf speech tagger developed by
  1942.        Eric Brill. For a detailed description of the tagger see chapter 6
  1943.        of his thesis.
  1944.      * Availability: The tagger and description are available by
  1945.        anonymous ftp from
  1946.           + ftp://lightning.lcs.mit.edu/pub/BRILL/Programs & Papers
  1947.             
  1948.      _________________________________________________________________
  1949.  
  1950.  
  1951.  
  1952.  
  1953. Andrew Hunt
  1954.   ---
  1955. Speech Technology Research Group        Ph:  61-2-351 4509
  1956. Dept. of Electrical Engineering            Fax: 61-2-351 3847
  1957. University of Sydney, NSW, 2006, Australia    email: andrewh@speech.su.oz.au
  1958. Archive-name: comp-speech-faq/part3
  1959. Last-modified: 1995/01/19
  1960.  
  1961.  
  1962.               COMP.SPEECH FAQ POSTING - PART 3/3
  1963.  
  1964.  
  1965. [Note: this document has been automatically extracted from a WWW site:
  1966.         http://www.speech.su.oz.au/comp.speech
  1967. This may introduce some formatting errors.]
  1968.  
  1969.  
  1970.  
  1971. ===========================================================================
  1972.  
  1973.    
  1974. FAQ SECTION 5 - Speech Synthesis
  1975.  
  1976.   Q5.1: WHAT IS SPEECH SYNTHESIS?
  1977.   
  1978.    Speech synthesis is the task of transforming written input to spoken
  1979.    output. The input can either be provided in a graphemic/orthographic
  1980.    or a phonemic script, depending on its source.
  1981.      _________________________________________________________________
  1982.    
  1983.   Q5.2: HOW CAN SPEECH SYNTHESIS BE PERFORMED?
  1984.   
  1985.    There are several algorithms. The choice depends on the task they're
  1986.    used for. The easiest way is to just record the voice of a person
  1987.    speaking the desired phrases. This is useful if only a restricted
  1988.    volume of phrases and sentences is used, e.g. messages in a train
  1989.    station, or schedule information via phone. The quality depends on the
  1990.    way recording is done.
  1991.    
  1992.    More sophisticated but worse in quality are algorithms which split the
  1993.    speech into smaller pieces. The smaller those units are, the less are
  1994.    they in number, but the quality also decreases. An often used unit is
  1995.    the phoneme, the smallest linguistic unit. Depending on the language
  1996.    used there are about 35-50 phonemes in western European languages,
  1997.    i.e. there are 35-50 single recordings. The problem is combining them
  1998.    as fluent speech requires fluent transitions between the elements. The
  1999.    intellegibility is therefore lower, but the memory required is small.
  2000.    
  2001.    A solution to this dilemma is using diphones. Instead of splitting at
  2002.    the transitions, the cut is done at the center of the phonemes,
  2003.    leaving the transitions themselves intact. This gives about 400
  2004.    elements (20*20) and the quality increases.
  2005.    
  2006.    The longer the units become, the more elements are there, but the
  2007.    quality increases along with the memory required. Other units which
  2008.    are widely used are half-syllables, syllables, words, or combinations
  2009.    of them, e.g. word stems and inflectional endings.
  2010.      _________________________________________________________________
  2011.    
  2012.   Q5.3: WHAT ARE SOME GOOD REFERENCES/BOOKS ON SYNTHESIS?
  2013.   
  2014.    The following are good introductory books/articles.
  2015.      * Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  2016.        Addison Wesley series in Electrical Engineering: Digital Signal
  2017.        Processing, 1987.
  2018.      * D. H. Klatt, "Review of Text-To-Speech Conversion for English",
  2019.        Jnl. of the Acoustic Society of America (JASA), v82, Sept. 1987,
  2020.        pp 737-793.
  2021.      * "Talking Machines, Theories, Models and Designs" Eds, G. Bailly &
  2022.        C. Benoit (Elsevier: North Holland)
  2023.      * I. H. Witten. Principles of Computer Speech. (London: Academic
  2024.        Press, Inc., 1982).
  2025.      * John Allen, Sharon Hunnicut and Dennis H. Klatt, "From Text to
  2026.        Speech: The MITalk System", Cambridge University Press, 1987.
  2027.        
  2028.      _________________________________________________________________
  2029.    
  2030.   Q5.4: WHAT SPEECH SYNTHESIS SOFTWARE/HARDWARE IS AVAILABLE?
  2031.   
  2032.    Please email any updates, corrections or additions to the following
  2033.    list. The range of commercially available synthesis software is
  2034.    growing rapidly so any help in keeping up to date will be appreciated.
  2035.    
  2036.     Orator Text-to-Speech Synthesizer
  2037.      * Platform: SUN SPARC, Decstation 5000. Written in C, and
  2038.        therefore portable to other UNIX platforms. Some successful ports:
  2039.        HP, RS-6000, PC-Unix [Linux].
  2040.      * Description: Sophisticated speech synthesis package. Has text
  2041.        preprocessing (for abbreviations, numbers), acronym rules, and
  2042.        human-like spelling routines. Natural-sounding synthesis based on
  2043.        demisyllable concatenation.
  2044.        
  2045.        Has high accuracy for pronunciation of names of people, places and
  2046.        businesses in America; good accuracy for English text; rules for
  2047.        stress and intonation marking; various methods of user control and
  2048.        customization at most stages of processing.
  2049.        
  2050.        A new version of the ORATOR system is under development. Both
  2051.        ORATOR and this new "ORATOR II" system are capable of very good
  2052.        general text synthesis. The ORATOR II system has a more
  2053.        natural-sounding voice.
  2054.      * Hardware: Runs on common SPARC or Decstation workstations, using
  2055.        their internal audio output capability. Recommend at least 16M of
  2056.        memory.
  2057.      * Availability and Pricing: Contact Bellcore's Licensing Office
  2058.        (1-800-527-1080) or email Anthony Lindsey alin1@panix.com
  2059.        
  2060.     Text to phoneme program (1)
  2061.      * Platform: unknown
  2062.      * Description: Text to phoneme program. Based on Naval Research
  2063.        Lab's set of text to phoneme rules.
  2064.      * Availability: by anonymous ftp
  2065.           + ftp://shark.cse.fau.edu/pub/src/phon.tar.Z
  2066.             
  2067.     Text to phoneme program (2)
  2068.      * Platform: unknown
  2069.      * Description: Text to phoneme program.
  2070.      * Availability: by anonymous ftp
  2071.           + ftp://wuarchive.wustl.edu/mirrors/unix-c/utils/phoneme.c
  2072.             
  2073.     Text to phoneme program (3)
  2074.      * Description: A public domain version of the same Naval Research
  2075.        Lab text to phoneme rules.
  2076.      * Availability: By anonymous ftp
  2077.           +
  2078.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/english2ph
  2079.             oneme.shar
  2080.             
  2081.     Text to speech program
  2082.      * Description: A implementation of the Klatt phoneme to waveform
  2083.        speech synthesiser.
  2084.      * Availability: By anonymous ftp
  2085.           +
  2086.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/klatt-0.02
  2087.             .tar.Z
  2088.             
  2089.     "Speak" - a Text to Speech Program
  2090.      * Platform: Sun SPARC
  2091.      * Description: Text to speech program based on concatenation of
  2092.        pre-recorded speech segments. A function library can be used to
  2093.        integrate speech output into other code.
  2094.      * Hardware: SPARC audio I/O
  2095.      * Availability: by anonymous ftp
  2096.           + ftp://wilma.cs.brown.edu/pub/speak.tar.Z
  2097.             
  2098.     TheBigMouth - a Text to Speech Program
  2099.      * Platform: NeXT
  2100.      * Description: Text to speech program based on concatenation of
  2101.        pre-recorded speech segments. NeXT equivalent of "Speak" for Suns.
  2102.      * Availability: try NeXT archive sites such as
  2103.        sonata.cc.purdue.edu.
  2104.        
  2105.     TextToSpeech Kit
  2106.      * Platform: NeXT Computers
  2107.      * Description: The TextToSpeech Kit does unrestricted conversion
  2108.        of English text to synthesized speech in real-time. The user has
  2109.        control over speaking rate, median pitch, stereo balance, volume,
  2110.        and intonation type. Text of any length can be spoken, and
  2111.        messages can be queued up, from multiple applications if desired.
  2112.        Real-time controls such as pause, continue, and erase are
  2113.        included. Pronunciations are derived primarily by dictionary
  2114.        look-up. The Main Dictionary has nearly 100,000 hand-edited
  2115.        pronunciations which can be supplemented or overridden with the
  2116.        User and Application dictionaries. A number parser handles numbers
  2117.        in any form. A letter-to-sound knowledge base provides
  2118.        pronunciations for words not in the Main or customized
  2119.        dictionaries. Dictionary search order is under user control.
  2120.        Special modes of text input are available for spelling and
  2121.        emphasis of words or phrases. The actual conversion of text to
  2122.        speech is done by the TextToSpeech Server. The Server runs as an
  2123.        independent task in the background, and can handle up to 50 client
  2124.        connections.
  2125.      * Misc: The TextToSpeech Kit comes in two packages: the Developer
  2126.        Kit and the User Kit. The Developer Kit enables developers to
  2127.        build and test applications which incorporate text-to-speech. It
  2128.        includes the TextToSpeech Server, the TextToSpeech Object, the
  2129.        pronunciation editor PrEditor, several example applications,
  2130.        phonetic fonts, example source code, and developer documentation.
  2131.        The User Kit provides support for applications which incorporate
  2132.        text-to-speech. It is a subset of the Developer Kit.
  2133.      * Hardware: Uses standard NeXT Computer hardware.
  2134.      * Cost:
  2135.           + TextToSpeech User Kit: $175 CDN ($145 US)
  2136.           + TextToSpeech Developer Kit: $350 CDN ($290 US)
  2137.           + Upgrade from User to Developer Kit: $175 CDN ($145 US)
  2138.      * Availability: Trillium Sound Research
  2139.     1500, 112 - 4th Ave. S.W., Calgary, Alberta, Canada, T2P 0H3
  2140.     Tel: (403) 284-9278 Fax: (403) 282-6778
  2141.     Order Desk: 1-800-L-ORATOR (US and Canada only)
  2142.     Email: TTSInfo@trillium.ab.ca
  2143.     
  2144.     SGI Developers Toolbox Synthesiser
  2145.      * Platform: SGI
  2146.      * Description: The SGI Developer Toolbox 4.0 CDROM contains a
  2147.        basic public domain text-to-speech program in the publics/speak
  2148.        directory. The directory includes man pages and source.
  2149.      * Availability: on the SGI Developer Toolbox 4.0 CDROM
  2150.        
  2151.     rsynth
  2152.      * Platform: Various (including Solaris2.3, SunOS4.1.3, HPUX, SGI
  2153.        Irix4.x, Linux)
  2154.      * Description:Public domain text-to-speech systm assembled from a
  2155.        variety of sources. It supports CMU and "beep" format dictionaries
  2156.        and now utilises stress marks in the dictionary in synthesising
  2157.        intonation.
  2158.      * Price: Free
  2159.      * Availability: by anonymous ftp from
  2160.           +
  2161.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/rsynth-2.0
  2162.             .tar.Z
  2163.           +
  2164.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/rsynth-2.0
  2165.             .tar.gz
  2166.             
  2167.     SENSYN speech synthesizer
  2168.      * Platform: PC, Mac, Sun, and NeXt
  2169.      * Rough Cost: $300
  2170.      * Description: This formant synthesizer produces speech waveform
  2171.        files based on the (Klatt) KLSYN88 synthesizer. It is intended for
  2172.        laboratory and research use. Note that this is NOT a
  2173.        text-to-speech synthesizer, but creates speech sounds based upon a
  2174.        large number of input variables (formant frequencies, bandwidths,
  2175.        glottal pulse characteristics, etc.) and would be used as part of
  2176.        a TTS system. Includes full source code.
  2177.      * Availability: Sensimetrics Corporation
  2178.     64 Sidney Street, Cambridge MA 02139.
  2179.     Fax: (617) 225-0470; Tel: (617) 225-2442.
  2180.     Email: sensimetrics@sens.com
  2181.     
  2182.     spchsyn.exe
  2183.      * Platform: PC?
  2184.      * Availability: By anonymous ftp as a self extracting DOS archive.
  2185.           +
  2186.             ftp://evans.ee.adfa.oz.au/mirrors/tibbs/applications/spchsyn.e
  2187.             xe
  2188.      * Requirements: May require special TI product(s), but all source
  2189.        is there.
  2190.        
  2191.     CSRE: Canadian Speech Research Environment
  2192.      * Platform: PC
  2193.      * Cost: Distributed on a cost recovery basis.
  2194.      * Description: CSRE is a software system which includes in
  2195.        addition to the Klatt speech synthesizer, SPEECH ANALYSIS and
  2196.        EXPERIMENT CONTROL SYSTEM. A paper about the whole package can be
  2197.        found in:
  2198.           + Jamieson D.G. et al, "CSRE: A Speech Research Environment",
  2199.             Proc. of the Second Intl. Conf. on Spoken Language
  2200.             Processing, Edmonton: University of Alberta, pp. 1127-1130.
  2201.      * Hardware: Can use a range of data aqcuisition/DSP hardware.
  2202.      * Availability: For more information contact
  2203.     Krystyna Marciniak
  2204.     email march@uwovax.uwo.ca
  2205.     Tel (519) 661-3901 Fax (519) 661-3805.
  2206.    For technical information email ramji@uwovax.uwo.ca
  2207.      * Note: A more detailed description is given in Section 1.9 on
  2208.        speech environments.
  2209.        
  2210.     Eloquence (currently an alpha release)
  2211.      * Platform: Windows and Solaris
  2212.      * Description: Software based text-to-speech package. Generates
  2213.        waveforms completely algorithmically instead of by concatenating
  2214.        waveforms, for maximum flexibility and naturalism. For instance,
  2215.        when the user requests a deeper voice, the software simulates a
  2216.        larger vocal tract, instead of simply pitch-shifting samples.
  2217.        
  2218.        Uses high-level linguistic parsing, which obviates the need for a
  2219.        huge dictionary. Handles numbers, acronyms, currency, etc.
  2220.        Includes a set of annotation symbols, for placing stress on
  2221.        particular words, expressing excitement/boredom, etc. Also allows
  2222.        phonetic input. The final version, including support for Windows
  2223.        DDE and OLE and UNIX Sockets, will be released by the end of 1994.
  2224.        
  2225.        Produces male and female voices for General American English.
  2226.        Dialects under development include Alabama, Brooklyn, and Boston.
  2227.      * Price: $5000 (unconfirmed)
  2228.      * Availability:
  2229.     Eloquent Technology, Inc.
  2230.     2389 North Triphammer Road
  2231.     Ithaca, NY 14850
  2232.     Ph: (607) 607-266-7025 Fax: (607) 607-266-7030
  2233.     Email: eti@plab.dmll.cornell.edu
  2234.     
  2235.     JSRU
  2236.      * Platform: UNIX and PC
  2237.      * Cost: 100 pounds sterling (from academic institutions and
  2238.        industry)
  2239.      * Description: A C version of the JSRU system, Version 2.3 is
  2240.        available. It's written in Turbo C but runs on most Unix systems
  2241.        with very little modification. A Form of Agreement must be signed
  2242.        to say that the software is required for research and development
  2243.        only.
  2244.      * Contact: Dr. E.Lewis eric.lewis@bristol.ac.uk)
  2245.        
  2246.     Klatt-style synthesiser
  2247.      * Platform: Unix
  2248.      * Cost: Free
  2249.      * Description: Software posted to comp.speech in late 1992.
  2250.      * Availability: By anonymous ftp from the comp.speech archives
  2251.           +
  2252.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources/klatt-0.02
  2253.             .tar.Z
  2254.             
  2255.     DECTalk
  2256.      * Description: Speech synthesis hardware and software. Detailed
  2257.        information on DECtalk and other DEC products is available on a
  2258.        World-Wide Web site.
  2259.           + http://www.digital.com/info.html
  2260.    For specific information on DECtalk, check out this www url:
  2261.           +
  2262.             http://www.digital.com/archive/pub/Digital/info/Customer-Updat
  2263.             e/940620005.txt
  2264.             
  2265.     Speech Manager and PlainTalk
  2266.      * Platform: Macintosh
  2267.      * Cost: Free
  2268.      * Description: Apple's new text-to-speech system extension(s) that
  2269.        enable applications (listed below) to perform text-to-speech
  2270.        conversion. The Speech Manager runs on most Macs, but PlainTalk
  2271.        (and the high quality voices) requires a 68020 Mac or better.
  2272.      * Availability: By anonymous ftp from:
  2273.           + ftp://ftp.apple.com/dts/mac/sys.soft/speech
  2274.    There are 3 files in this directory:
  2275.        
  2276.         6273632 Aug 14 22:51 macintalk-pro.hqx
  2277.                 PlainTalk Text-To-Speech 1.0 speech synthesizer extension
  2278.                 (includes Female Voice, Compressed); TTS Female Voice;
  2279.                 TTS Male Voice; and TTS Male Voice, Compressed. Requires
  2280.                 68020 or better!
  2281.                 
  2282.         370108 Aug 13 04:30 speech-manager-docs.hqx
  2283.                 Apple DocViewer format (Inside Macintosh style, no
  2284.                 installation instructions - just drag everything onto
  2285.                 your closed System Folder).
  2286.                 
  2287.         262569 Aug 7 07:01 speech-manager.hqx
  2288.                 Speech Manager 1.1.1 (includes Marvin's voice) and
  2289.                 MacInTalk Voices 1.1.1 (9 more voices). Runs most Macs.
  2290.                 
  2291.     Various Mac Speech Output Applications
  2292.      * Platform: Macintosh
  2293.      * Cost: Free (except for At Ease)
  2294.      * Description: Some of the Speech Manager aware text-to-speech
  2295.        (TTS) applications, etc. are listed below (there are more on the
  2296.        Apple Developer CD-ROMs).
  2297. Application, etc.  Source            Comments
  2298. _________________ ________  _________________________________________________
  2299. AddressSpeech     info-mac  4D talking address book (from Speech Pack 2.0)
  2300. At Ease 2.0    MacWarehouse Friendly desktop that speaks file names
  2301. At Ease 2.0 WG MacWarehouse Friendly desktop that speaks file names
  2302. Eliza 3.1            AOL    Talking Eliza (Rogerian psych therapist)
  2303. FB speech      Inside Basic Mag, volume 3, no. 6. FutureBasic demo
  2304. FB Speech demo Inside Basic Mag, volume 3, no. 7. FutureBasic demo
  2305. Fortune 1.1       info-mac  Like a talking UNIX fortune command - slick
  2306. Homer 0.92d9  zaphod.ee.pitt.edu  GUI IRC client, assign nicks voices - slick
  2307. MacMessage 1.0  FirstClassBBS  Share talking messages/customizable startup
  2308. Say               info-mac  MPW Tool which converts standard input to speech
  2309. ScriptTools 1.2   info-mac  Write AppleScript scripts to say text messages
  2310. Siege Watch 1.01f info-mac  Wryly political speaking clock
  2311. SoToSpeak1.0.0b10 info-mac  Two voice conversation (also see Fortune's About)
  2312. Speak It!         info-mac  Type in a message and have it spoken
  2313. Speaker 1.11      info-mac  Simple text file editor, speaks on CR, macros
  2314. Speecher 1.2.1    info-mac  Customizable word pronunciation/substitution
  2315. SpeechManagerdemo info-mac  Command line interface, C source, aka -explorer
  2316. Speech Pack 2.0   info-mac  4th Dimension external, add speech to database
  2317. SpeechUnitEx      info-mac  Pascal source code for speech in Lab 7
  2318. speek-02b         info-mac  Speech XCMD for HyperCard
  2319. TalkingClockPro2.0info-mac  AppleScriptable talking clock extension (2.0b0)
  2320. TeachText 7.2      AV Mac   Apple's talking TeachText (simple editor w/QT)
  2321. Tex-Edit 1.9         AOL    Talking word processor, McSink like, modeming
  2322. VoiceDemo 1.0.1   info-mac  Bare bones phrase talker
  2323. Welcome!v1.3.1    info-mac  A talking Welcome to Macintosh startup
  2324. ?                     ?     Talking Plug-In-Module for MS Word 5,
  2325.                                experimental, unsupported, buggy, beware!
  2326. Speech Rhythms       AOL    A cool text file for one of the above apps
  2327. _____
  2328.      * Sources:
  2329.           + AOL = America Online
  2330.           + info-mac = {ftp sumex-aim.stanford.edu, ftp
  2331.             wuarchive.wustl.edu, et al.}
  2332.           + MacWarehouse = (800) 255-6227
  2333.      * Misc: Apple's work in spoken language technologies and systems
  2334.        is described in:
  2335.           + Lee, Kai-Fu. "The Conversational Computer: An Apple
  2336.             Perspective." (Keynote Speech) In Proc. Eurospeech in Berlin,
  2337.             September, 1993.
  2338.             
  2339.     MacinTalk
  2340.      * Platform: Macintosh
  2341.      * Cost: Free
  2342.      * Description: Formant based speech synthesis. There is also a
  2343.        program called "tex-edit" which apparently can pronounce English
  2344.        sentences reasonably using Macintalk.
  2345.      * Note: MacinTalk doesn't run reliably on Macintosh's with new
  2346.        sound hardware under the lastest OS (System 7.1 w/HUD 2.0). More
  2347.        recent software is listed above.
  2348.      * Availability: By anonymous ftp from many archive sites (have a
  2349.        look on archie if you can). tex-edit is on many of the same sites.
  2350.        Try
  2351.           +
  2352.             ftp://wuarchive.wustl.edu/mirrors2/info-mac/Old/card/macintalk
  2353.             .hqx
  2354.           +
  2355.             ftp://wuarchive.wustl.edu/mirrors2/info-mac/Old/card/macintalk
  2356.             -stack.hqx
  2357.           +
  2358.             ftp://wuarchive.wustl.edu/mirrors2/info-mac/app/tex-edit-15.hq
  2359.             x
  2360.             
  2361.     Monologue by Creative Labs
  2362.      * Platform: PC Windows plus SoundBlaster 16
  2363.      * Cost: $99.00 or free with some MultiMedia packages
  2364.      * Description: Phoneme based speech synthesis software which
  2365.        provides output on Sound Blaster compatible audio cards. It
  2366.        includes a dictionary of words that are "exceptions" together with
  2367.        a a dictionary manager for modifying those words. It can be used
  2368.        as a stand alone program with Windows' Clipboard or as a DDE
  2369.        server dynamically linked (DLL) to a program you write.
  2370.      * Cost: $99.00 or free with some MultiMedia packages
  2371.      * Contact:
  2372.     Creative Labs Inc.
  2373.     1901 McCarthy Boul, Milpitas, CA 95035, USA
  2374.     Tel: 408-428-6622 Fax: 408-428-6633 BBS: 408-428-6660
  2375.     OR Creative Technology Ltd.
  2376.     67 Ayer Rajah Crescent #03-18, Singapore 0513
  2377.     Tel: 65-870-0433 Fax: 65-773-0353 BBS: 65-776-2423
  2378.     
  2379.     Lernout & Hauspie Text-To-Speech SDK
  2380.      * Platform: IBM-Compatible
  2381.      * Description: The L&H; Text-to-Speech software developers kit is
  2382.        able to integrate text-to-speech technology with your own or
  2383.        existing PC applications under Microsoft Windows 3.1. This
  2384.        software will allow conversion of written text into clear human
  2385.        sounding synthetic speech.
  2386.      * Requirements: IBM-compatible PC 386 DX(33Mhz) or higher, 8Mb
  2387.        RAM, MS DOS 5.0(or higher), MS Windows 3.1 (or higher), Compiler
  2388.        and linker: Microsoft(R) Visual C++ or Borland C++, Windows(TM)
  2389.        3.1 compatible sound card, preferably 16 bit e.g. Soundblaster,
  2390.        Windows Sounds System, Pro Audio Spectrum
  2391.      * Price: Unconfirmed $1,999 per copy, and $499 per each additional
  2392.        language (American English, French, German, or Spanish).
  2393.      * Contact: USA (617) 932-4118
  2394.        
  2395.     Tinytalk
  2396.      * Platform: PC
  2397.      * Description: Shareware package is a speech 'screen reader' which
  2398.        is used by many blind users.
  2399.      * Availability: By anonymous ftp
  2400.           + ftp://handicap.shel.isc-br.com/speech
  2401.    Get the files ttexe166.zip and ttdoc166.zip.
  2402.        
  2403.     Narrator - narrator.device
  2404.      * Platform: Amiga
  2405.      * Description: Formant based speech synthesis. Includes a
  2406.        Engish-to-phoneme translation library, and a SPEAK: pseudo-device
  2407.        for speech output.
  2408.      * Hardware: Standard Amiga hardware
  2409.      * Availability: Part of AmigaOS
  2410.        
  2411.     Infovox Product Range
  2412.      * Description: Multilingual Text-to-speech systems, languages
  2413.        available: American English, British English, German, French,
  2414.        Spanish, Italian, Swedish, Norwegian, Icelandic, Danish and
  2415.        Finnish.
  2416.        
  2417.      * Product name: INFOVOX 500, PC BOARD
  2418.           + Product description: Half length expansion board for IBM PC,
  2419.             XT, AT, PS/2 model 30 or compatible personal computers. The
  2420.             board can also be connected via the serial port. Language and
  2421.             control program for downloading into RAM or mounted on
  2422.             EPROMs.
  2423.           + Platform: for IBM PC, XT, AT, PS/2 model 30 or compatible
  2424.      * Product name: INFOVOX 600, OEM BOARD
  2425.           + Product description: OEM board built with CMOS IC's. Language
  2426.             and control program are stored in on-board fixed memory.
  2427.           + Platform: any, Interface: 9-pole D-SUB (RS 232-C) 300-9600
  2428.             Baud
  2429.      * Product name: INFOVOX 700, DESKTOP UNIT
  2430.           + Product description: Desktop unit with built in Infovox 600
  2431.             to be connected to any computer or terminal via an RS 232-C
  2432.             serial interface. Built in loudspeaker and rechargable
  2433.             battery for 4 hours use, and control knobs for continuous
  2434.             control of speech volume and speed.
  2435.           + Platform: any
  2436.      * Product name: INFOVOX 650, OEM BOARD
  2437.           + Product description: OEM-board built with CMOS IC's. Language
  2438.             and control program are stored in on-board memory.
  2439.           + Platform:any, Interface: 9 pole D-SUB (RS 232-C) 300-9600
  2440.             Baud
  2441.      * Product name: INFOVOX 750, DESKTOP UNIT
  2442.           + Product description: Desktop unit with built in Infovox 650
  2443.             to be connected to any computer or terminal via an RS 232-C
  2444.             serial interface. Built in loudspeaker and rechargable
  2445.             battery for 5 hours use, and a control knob for continuous
  2446.             control of speech volume.
  2447.           + Platform: any
  2448.      * Misc: Infovox multi-lingual Text-to-Speech Technologies can
  2449.        interface with Apple's PlainTalk System. It enables Apple Third
  2450.        party developers to write application software with synthetic
  2451.        speech output using their usual Apple Plain Talk Text-to-Speech
  2452.        interface. Software already written for the English speaking
  2453.        market using Apple Plain Talk can be now distributed worldwide,
  2454.        provided message strings are translated.
  2455.      * Contact:
  2456.     Telia Promotor Infovox AB
  2457.     TTS Sales Division
  2458.     P.O. Box 2069
  2459.     S-171 02 Solna, Sweden
  2460.     Ph: +46 8 764 35 00 Fax: +46 8 735 78 76
  2461.     email: tts-sales@infovox.se
  2462.     
  2463.     SIMTEL-20
  2464.      * The following is a list of speech related software available from
  2465.        SIMTEL-20 and its mirror sites for PCs.
  2466.      * The SIMTEL internet address is WSMR-SIMTEL20.Army.Mil
  2467.        [192.88.110.20] Try looking at your nearest archive site first.
  2468.        [Note: problems have been reported in accessing this site - does
  2469.        anyone know a new address?]
  2470. Directory PD1: MSDOS.VOICE
  2471.  Filename   Type Length   Date   Description
  2472.  ==============================================
  2473.  AUTOTALK.ARC  B   23618  881216  Digitized speech for the PC
  2474.  CVOICE.ARC    B   21335  891113  Tells time via voice response on PC
  2475.  HEARTYPE.ARC  B   10112  880422  Hear what you are typing, crude voice synth.
  2476.  HELPME2.ARC   B    8031  871130  Voice cries out 'Help Me!' from PC speaker
  2477.  SAY.ARC       B   20224  860330  Computer Speech - using phonemes
  2478.  SPEECH98.ZIP  B   41003  910628  Build speech (voice) on PC using 98 phonemes
  2479.  TALK.ARC      B    8576  861109  BASIC program to demo talking on a PC speaker
  2480.  TRAN.ARC      B   39766  890715  Repeats typed text in digital voice
  2481.  VDIGIT.ZIP    B  196284  901223  Toolkit: Add digitized voice to your programs
  2482.  VGREET.ARC    B   45281  900117  Voice says good morning/afternoon/evening
  2483.  
  2484.      _________________________________________________________________
  2485.  
  2486.  
  2487. ===========================================================================
  2488.  
  2489.    
  2490. FAQ SECTION 6 - Speech Recognition
  2491.  
  2492.   Q6.1: WHAT IS SPEECH RECOGNITION?
  2493.   
  2494.    Automatic speech recognition is the process by which a computer maps
  2495.    an acoustic speech signal to text.
  2496.    
  2497.    Automatic speech understanding is the process by which a computer maps
  2498.    an acoustic speech signal to some form of abstract meaning of the
  2499.    speech.
  2500.      _________________________________________________________________
  2501.    
  2502.   Q6.2: HOW CAN I BUILD A VERY SIMPLE SPEECH RECOGNISER?
  2503.   
  2504.    Doug Danforth provides a detailed account in article 253 in the
  2505.    comp.speech archives. A summary is provided below. It is also
  2506.    available by anonymous ftp
  2507.      *
  2508.        ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/info/DIY_SpeechRecognit
  2509.        ion
  2510.        
  2511.     QUICKY RECOGNIZER sketch:
  2512.     
  2513.     Here is a simple recognizer that should give you 85%+ recognition
  2514.    accuracy. The accuracy is a function of the words you have in your
  2515.    vocabulary. Long distinct words are easy. Short similar words are
  2516.    hard. You can get 98+% on the digits with this recognizer.
  2517.    
  2518.    Overview:
  2519.      * Find the begining and end of the utterance.
  2520.      * Filter the raw signal into frequency bands.
  2521.      * Cut the utterance into a fixed number of segments.
  2522.      * Average data for each band in each segment.
  2523.      * Store this pattern with its name.
  2524.      * Collect training set of about 3 repetitions of each pattern
  2525.        (word).
  2526.      * Recognize unknown by comparing its pattern against all patterns in
  2527.        the training set and returning the name of the pattern closest to
  2528.        the unknown.
  2529.        
  2530.    Many variations upon the theme can be made to improve the performance.
  2531.    Try different filtering of the raw signal and different processing
  2532.    methods.
  2533.    
  2534.    Q6.7 contains information on public domain speech recognition
  2535.    software: Lotec and Myers' Hidden Markov Model software.
  2536.      _________________________________________________________________
  2537.    
  2538.   Q6.3: WHAT DOES SPEAKER DEPENDENT/ADAPTIVE/INDEPENDENT MEAN?
  2539.   
  2540.    A speaker dependent system is developed to operate for a single
  2541.    speaker. These systems are usually easier to develop, cheaper to buy
  2542.    and more accurate, but not as flexible as speaker adaptive or speaker
  2543.    independent systems.
  2544.    
  2545.    A speaker independent system is developed to operate for any speaker
  2546.    of a particular type (e.g. American English). These systems are the
  2547.    most difficult to develop, most expensive and accuracy is lower than
  2548.    speaker independent systems. However, they are more flexible.
  2549.    
  2550.    A speaker adaptive system is developed to adapt its operation to the
  2551.    characteristics of new speakers. It's difficulty lies somewhere
  2552.    between speaker independent and speaker dependent systems.
  2553.      _________________________________________________________________
  2554.    
  2555.   Q6.4: WHAT DOES SMALL/MEDIUM/LARGE/VERY-LARGE VOCABULARY MEAN?
  2556.   
  2557.    The size of vocabulary of a speech recognition system affects the
  2558.    complexity, processing requirements and the accuracy of the system.
  2559.    Some applications only require a few words (e.g. numbers only), others
  2560.    require very large dictionaries (e.g. dictation machines). There are
  2561.    no established definitions, however, try
  2562.      * small vocabulary - tens of words
  2563.      * medium vocabulary - hundreds of words
  2564.      * large vocabulary - thousands of words
  2565.      * very-large vocabulary - tens of thousands of words.
  2566.        
  2567.      _________________________________________________________________
  2568.    
  2569.   Q6.5: WHAT DOES CONTINUOUS SPEECH OR ISOLATED-WORD MEAN?
  2570.   
  2571.    An isolated-word system operates on single words at a time - requiring
  2572.    a pause between saying each word. This is the simplest form of
  2573.    recognition to perform because the end points are easier to find and
  2574.    the pronunciation of a word tends not affect others. Thus, because the
  2575.    occurrences of words are more consistent they are easier to recognise.
  2576.    
  2577.    A continuous speech system operates on speech in which words are
  2578.    connected together, i.e. not separated by pauses. Continuous speech is
  2579.    more difficult to handle because of a variety of effects. First, it is
  2580.    difficult to find the start and end points of words. Another problem
  2581.    is "coarticulation". The production of each phoneme is affected by the
  2582.    production of surrounding phonemes, and similarly the the start and
  2583.    end of words are affected by the preceding and following words. The
  2584.    recognition of continuous speech is also affected by the rate of
  2585.    speech (fast speech tends to be harder).
  2586.      _________________________________________________________________
  2587.    
  2588.   Q6.6: HOW IS SPEECH RECOGNITION PERFORMED?
  2589.   
  2590.    A wide variety of techniques are used to perform speech recognition.
  2591.    There are many types of speech recognition. There are many levels of
  2592.    speech recognition / analysis / understanding.
  2593.    
  2594.    Typically speech recognition starts with the digital sampling of
  2595.    speech. The next stage is acoustic signal processing. Most techniques
  2596.    include spectral analysis; e.g. LPC analysis, MFCC, cochlea modelling
  2597.    and many, many more.
  2598.    
  2599.    The next stage is recognition of phonemes, groups of phonemes and
  2600.    words. This stage can be achieved by many processes such as DTW
  2601.    (Dynamic Time Warping), HMM (hidden Markov modelling), NNs (Neural
  2602.    Networks), expert systems and combinations of techniques. HMM-based
  2603.    systems are currently the most commonly used and most successful
  2604.    approach.
  2605.    
  2606.    Most systems utilise some knowledge of the language to aid the
  2607.    recognition process.
  2608.    
  2609.    Some systems try to "understand" speech. That is, they try to convert
  2610.    the words into a representation of what the speaker intended to mean
  2611.    or achieve by what they said.
  2612.      _________________________________________________________________
  2613.    
  2614.   Q6.7: WHAT ARE SOME GOOD REFERENCES/BOOKS ON SPEECH RECOGNITION?
  2615.   
  2616.    Some reviews of speech recognition for personal computers:
  2617.      * "Seybold Report on Desktop Publishing" published a nine-page,
  2618.        head-to-head comparison of Dragon's DOS software with IBM's OS/2
  2619.        software. March 7, 1994; Volume 8, Number 7; Pages 3-11;
  2620.        ISSN:0889-9762; Seybold Publications, P.O. Box 644, Media, PA
  2621.        19063 USA, phone (610) 565-2480.
  2622.      * McGraw-Hill Inc.'s "BYTE, the Magazine of Technology Integration,"
  2623.        published a two-page review of IBM's Personal Dictation System
  2624.        software. May 1994; Volume ?, Number ?; Pages 145-146;
  2625.        ISSN:0360-5280; Editorial, Executive, and Circulation address: One
  2626.        Phoenix Mill Lane, Peterborough, NH 03458 USA, phone ?
  2627.        
  2628.    Some general introduction books on speech recognition technology:
  2629.      * Fundamentals of Speech Recognition; Lawrence Rabiner & Biing-Hwang
  2630.        Juang Englewood Cliffs NJ: PTR Prentice Hall (Signal Processing
  2631.        Series), c1993 ISBN 0-13-015157-2
  2632.      * Speech recognition by machine; W.A. Ainsworth London: Peregrinus
  2633.        for the Institution of Electrical Engineers, c1988
  2634.      * Speech synthesis and recognition; J.N. Holmes Wokingham: Van
  2635.        Nostrand Reinhold, c1988
  2636.      * Douglas O'Shaughnessy -- Speech Communication: Human and Machine
  2637.        Addison Wesley series in Electrical Engineering: Digital Signal
  2638.        Processing, 1987.
  2639.      * Electronic speech recognition: techniques, technology and
  2640.        applications edited by Geoff Bristow, London: Collins, 1986
  2641.      * Readings in Speech Recognition; edited by Alex Waibel & Kai-Fu
  2642.        Lee. San Mateo: Morgan Kaufmann, c1990
  2643.        
  2644.    More specific books/articles:
  2645.      * Hidden Markov models for speech recognition; X.D. Huang, Y. Ariki,
  2646.        M.A. Jack. Edinburgh: Edinburgh University Press, c1990
  2647.      * Automatic speech recognition: the development of the SPHINX
  2648.        system; by Kai-Fu Lee; Boston; London: Kluwer Academic, c1989
  2649.      * Prosody and speech recognition; Alex Waibel (Pitman: London)
  2650.        (Morgan Kaufmann: San Mateo, Calif) 1988
  2651.      * S. E. Levinson, L. R. Rabiner and M. M. Sondhi, "An Introduction
  2652.        to the Application of the Theory of Probabilistic Functions of a
  2653.        Markov Process to Automatic Speech Recognition" in Bell Syst.
  2654.        Tech. Jnl. v62(4), pp1035--1074, April 1983
  2655.      * R. P. Lippmann, "Review of Neural Networks for Speech
  2656.        Recognition", in Neural Computation, v1(1), pp 1-38, 1989.
  2657.        
  2658.      _________________________________________________________________
  2659.    
  2660.   Q6.8: WHAT SPEECH RECOGNITION PACKAGES ARE AVAILABLE?
  2661.   
  2662.    The following packages are presented in no particular order.
  2663.    
  2664.     HM2007 - Speech Recognition Chip
  2665.      * Description: HM2007 is a 48-pin single chip CMOS voice
  2666.        recognition LSI circuit with on-chip analog front end, voice
  2667.        analysis, recognition process and system control functions. A 40
  2668.        word isolated-word voice recognition system can be composed of an
  2669.        external microphone, keyboard, SRAM and a few other components.
  2670.        When combined with a microprocessor, an intelligent recognition
  2671.        system can be built. A demo board for this chip is being
  2672.        distributed by The Summa Group.
  2673.      * Cost: Approx US$30 for the HM2007 and US$100 for the demo board.
  2674.      * Warning: Several people have reported problems in obtaining
  2675.        small numbers of this chip (say less than 10). It appears that the
  2676.        distributors (include the one listed below) are only interested in
  2677.        large volumes. If you know of a good source please send it in for
  2678.        inclusion in the FAQ.
  2679.      * Contact: 
  2680.     The Summa Group Limited
  2681.     One California Street, Suite #1940,
  2682.     San Francisco, CA 94111
  2683.     Ph: (415) 288-0390
  2684.     
  2685.     Voice Blaster Ver. 4.0
  2686.      * Platform: IBM AT or higher, DOS or Wndows 3.1
  2687.      * Description: Uses a Sound Blaster or compatible board. Contains
  2688.        a microphone headset and a connector for LPT1:. A printer can
  2689.        still be used on LPT1:. Will recognize 1024 words that are trained
  2690.        by the operator. Each word activates a macro that can enter an
  2691.        ascii word on the screen or into a word processor or invoke a
  2692.        batch file. An optional footswitch may be installed. Software to
  2693.        run under DOS or Windows 3.1 is included.
  2694.      * Cost: Around $150 Canadian.
  2695.      * Contact: 
  2696.     COVOX Inc.
  2697.     675 Conger Street
  2698.     Eugene, Oregon, 97402, USA
  2699.     Ph: (503) 342-1271 Fax: (503) 342-1283
  2700.     BBS: (503) 342-4135
  2701.     
  2702.     Votan
  2703.      * Platform: MS-DOS, SCO UNIX
  2704.      * Description: Isolated word and continuous speech modes, speaker
  2705.        dependant and (limited) speaker independent. Vocab size is 255
  2706.        words or up to a fixed memory limit - but it is possible to
  2707.        dynamically load different words for effectively unlimited number
  2708.        of words.
  2709.      * Rough Cost: Approx US $1,000-$1,500
  2710.      * Requirements: Cost includes one Votan Voice Recognition ISA-bus
  2711.        board for 386/486-based machines. A software development system is
  2712.        also available for DOS and Unix.
  2713.      * Misc: Up to 8 Votan boards may co-exist for 8 simultaneous voice
  2714.        users. A telephone interface is also available. There is also a
  2715.        4GL and a software development system. Apparently there is more
  2716.        than one version - more info required.
  2717.      * Contact: 800-877-4756, 510-426-5600
  2718.        
  2719.     Entropic's HTK (HMM Toolkit)
  2720.      * Platform: Range of Unix platforms.
  2721.      * Description: HTK is a software toolkit for building continuous
  2722.        density HMM based speech recognisers. It consists of a number of
  2723.        library modules and a number of tools. Functions include speech
  2724.        analysis, training tools, recognition tools, results analysis, and
  2725.        an interactive tool for speech labelling. Many standard forms of
  2726.        continuous density HMM are possible. Can perform isolated word or
  2727.        connected word speech recognition. It van model whole words, sub-
  2728.        word units. Can perform speaker verification and other pattern
  2729.        recognition work using HMMs. HTK is now integerated with the
  2730.        ESPS/Waves speech research environment which is described in
  2731.        Section 1.8.
  2732.      * Misc: The availability of HTK changed in early 1993 when
  2733.        Entropic obtained exclusive marketing rights to HTK from the
  2734.        developers at Cambridge.
  2735.      * Cost: On request.
  2736.      * Contact: 
  2737.     Entropic Research Laboratory,
  2738.     600 Pennsylvania Ave, S.E. Suite 202,
  2739.     Washington, D.C. 20003, USA
  2740.     Phone: (202) 547-1420.
  2741.     email - info@entropic.com
  2742.     
  2743.     DragonDictate version 3.0
  2744.      * Platform: PC
  2745.      * Description: Speaker-adaptive recognition system for discrete
  2746.        speech. Provides 110,000 word dictionary and also allows user to
  2747.        add words. Active vocabulary of 5,000, 30,000, or 60,000 words.
  2748.        Allows dictation into almost all DOS applications (word
  2749.        processors, spreadsheets, etc.) and hands-free operation of the
  2750.        PC.
  2751.      * Cost:Prices including audio board and high-quality headset
  2752.        microphone:
  2753.           + US$695 (5,000 word Starter Edition)
  2754.           + US$995 (30,000 word Classic Edition)
  2755.           + US$1,995 (60,000 word Power Edition)
  2756.      * Requirements: Minimum of 33 Mhz 486 with 8-16M memory and at
  2757.        least 29M disk space (depending on product), one 8-bit slot, DOS
  2758.        5.0 and up (also runs in a DOS box under Windows or OS/2).
  2759.      * Contact: 
  2760.     Dragon Systems, Inc.
  2761.     320 Nevada Street
  2762.     Newton, MA 02160, USA
  2763.     Tel: 1-617-965-5200, Fax: 1-617-527-0372
  2764.     
  2765.     DragonDictate for Windows
  2766.      * Platform: PC
  2767.      * Description: Speech-to-text dictation system. Discrete speech;
  2768.        speaker- adaptive. Also provides command/control and mouse
  2769.        movement for hands-free operation of Windows. Comes with a 120,000
  2770.        word pronunciation dictionary; users can also add their own words
  2771.        or phrases. Dictate directly into any application.
  2772.      * Rough Cost:Prices including software, documentation and
  2773.        microphone:
  2774.           + DragonDictate Starter Edition (5,000 words active) -- $395
  2775.           + DragonDictate Classic Edition (30,000 words active) -- $695
  2776.           + DragonDictate Power Edition (60,000 words active) -- $1,695
  2777.      * Requirements: 486/33, 7-10 MB dedicated RAM (depending on
  2778.        edition), Windows 3.1 or later. Supported sound boards: Media
  2779.        Vision Pro Audio Studio 16, Creative Labs Sound Blaster 16,
  2780.        Microsoft Windows Sound System, IBM Audio Capture/Playback
  2781.        Adapter.
  2782.      * Contact:
  2783.     Dragon Systems, Inc.
  2784.     320 Nevada Street
  2785.     Newton, MA 02160, USA
  2786.     Phone: (617)965-5200 Fax: (617)527-0372
  2787.     
  2788.     DragonVoiceTools
  2789.      * Platform: PC
  2790.      * Description: Programmer's toolkit for developing speech-aware
  2791.        DOS or Windows applications. Recognizes continuously spoken digits
  2792.        and discretely spoken words or phrases. Up to 1,000 words can be
  2793.        active at one time. Use words from 110,000 word dictionary
  2794.        (included) and/or develop your own word models.
  2795.      * Cost: 
  2796.           + US$1,995 (developer's kit)
  2797.           + US$595 (end-user system)
  2798.      * Requirements: Minimum of 20 Mhz 386 (larger vocabulary requires
  2799.        faster processor) with at least 5M memory and at least 19M disk
  2800.        space (depending on vocabulary size), DOS 5.0 and up, Windows 3.1
  2801.        and up, Borland C or C++ or Microsoft C or C++. Also requires IBM
  2802.        M-ACPA card available from IBM or Dragon Systems ($325).
  2803.      * Contact: 
  2804.     Dragon Systems, Inc.
  2805.     320 Nevada Street,
  2806.     Newton, MA 02160, USA
  2807.     Tel: 1-617-965-5200, Fax: 1-617-527-0372
  2808.     
  2809.     IBM VoiceType Dictation
  2810.     
  2811.     OR: Osborne Personal Dictation System (in Australia)
  2812.      * Platform: Intel I486 & IBM OS/2
  2813.      * Description: Independent Speaker, discrete speech dictation with
  2814.        navigation. Navigation does not require setup, most applications
  2815.        are automatically speech enabled by dynamic control analysis.
  2816.        Dictation averages 70WPM with 95% accuracy and uses statistical
  2817.        trigram modelling. The base system is 22K words, other
  2818.        vocabularies available for specific industries.
  2819.      * Requirements: 486SX or above, 16MB Ram, 30MB File space,
  2820.        Dictation Adapter
  2821.      * Cost: Software $495 (includes mic) / Hardware $495
  2822.      * Misc 1: A Windows version is now available.
  2823.      * Misc 2: Based on IBM Tangora Technology
  2824.      * Availability: US English. Other languages (UK, FR, GR, IT, and
  2825.        ES) available 3Q94.
  2826.      * Contact: US Contact 1-800-TALK-2-ME or 1-914-766-9252.
  2827.        
  2828.     VoiceServer for Windows
  2829.      * Platform: PC
  2830.      * Description: Speaker dependent, each with an independent
  2831.        directory. Isolated word. Upto 1000 words/user, 300 words/window.
  2832.        1 word occupies 2Kb on hard disk. Can be used to control Windows
  2833.        applications by issuing voice commands instead of menu selection.
  2834.      * Rough Cost: 292 Pounds(UK)
  2835.      * Requirements: None
  2836.      * Misc: Price includes a half-sized AT voice card (including a
  2837.        DSP), software, documentation & a microphone (attachable to
  2838.        keyboard or speaker). A light-weight high-spec headset is an
  2839.        optional extra.
  2840.      * Contact: 
  2841.     Mark Redwood
  2842.     Applied Voice Technologies
  2843.     26 Danbury Street, Islington,
  2844.     London, UK, N1 8JU
  2845.     Ph: + 44 71 454 1224 : Fax: + 44 71 454 1225
  2846.     
  2847.     IN3 Voice Command for Windows
  2848.      * Platform: PC with Windows 3.1
  2849.      * Description: IN3 is now available for MS-Windows. Users can call
  2850.        applications to the foreground with voice commands. Once the
  2851.        application is called, the user may enter commands and data with
  2852.        voice commands. Voice macros can reduce the strain of repetitive
  2853.        stress injuries (RSI) such as Carpel Tunnel Syndrome (CTS) by
  2854.        replacing heavy repetitive keyboard hammering with simple voice
  2855.        operations. Voice macros take complex operations and reduce them
  2856.        to simple verbal commands. Voice input can provide new facilities
  2857.        for tasks which could not easily have been otherwise performed
  2858.        without the multiple axis of input. IN3 is hardware-independent,
  2859.        users with any Windows-compatible audio add speech recognition to
  2860.        the desktop. IN3 works with either 8 bit or 16 bit Windows audio
  2861.        boards. IN3 is based on continuous word-spotting technology. A
  2862.        developer API is also available for creating voice-enabled
  2863.        applications.
  2864.      * Price: $179 U.S.
  2865.      * Requirements: PC with 80386 processor or better, Microsoft
  2866.        Windows 3.1, and Windows compatible audio system with microphone.
  2867.      * Misc: Fully functional demos are available on Compuserve in
  2868.        various Multimedia and CAD forums. Demos are also available from
  2869.        "America on Line", the comp.binaries.ms-windows archive sites, and
  2870.        various BBS systems. It is also available by anonymous ftp
  2871.           +
  2872.             ftp://ftp.wustl.edu/usenet/comp.binaries.ms-windows/v3/in3demo
  2873.             .zip
  2874.           + ftp://ftp.uwasa.fi/mirror/ultrasound/demo/in3demo.zip
  2875.    An equivilant Sun product is described below.
  2876.      * Contact: 
  2877.     Brantley Kelly
  2878.     Email: cbk@gacc.atl.ga.us CIS: 75120,431
  2879.     FAX: 1-404-925-7924 Phone: 1-404-925-7950
  2880.     Command Corp. Inc, 3675 Crestwood Parkway, Duluth GA 30136, USA
  2881.     
  2882.     IN3 Voice Command
  2883.      * Platform: Sun SPARCstation
  2884.      * Description: IN3 provides a secure, robust, word spotting,
  2885.        continuous speech recognition facility for the Sun OS or Solaris
  2886.        operating systems. The recognition system is a secure operating
  2887.        system facility capable of working with various interfaces,
  2888.        microphones, and devices. The operating system interface works
  2889.        with native UNIX outside of X Windows as well as provides enhanced
  2890.        X Windows facilities including named window support. The user
  2891.        interface provides a means to quickly create commands on the fly
  2892.        for replacing long strings and complex operations with voice
  2893.        macros. [Voice macros can reduce the strain of repetitive stress
  2894.        injuries (RSI) such as Carpel Tunnel Syndrome (CTS) by replacing
  2895.        heavy repetitive keyboard hammering with simple voice operations.
  2896.        ] The IN3 user interface works with generic X servers and window
  2897.        managers. A developer API is also available for creating voice-
  2898.        enabled applications, interfacing with other audio sources, and
  2899.        providing extensive application control over the recognition
  2900.        facility.
  2901.      * Availability: SunSite archive at SunSITE.unc.edu as well as on
  2902.        Catalyst CDware as both a runable demo and unlockable software.
  2903.      * Hardware Required: Sun SPARCstation with audio input. Noise
  2904.        canceling microphone recommended but not required.
  2905.      * Software Required:
  2906.           + Sun OS 4.1.2 with OpenWindows 3.0
  2907.           + or, Sun OS 4.1.3
  2908.           + or, Solaris 2.1 or Solaris 2.2
  2909.      * Misc: An equivilant MS-Windows product is described above.
  2910.      * Price: $495 U.S.
  2911.      * Contact: 
  2912.     Brantley Kelly
  2913.     Email: cbk@gacc.atl.ga.us CIS: 75120,431
  2914.     FAX: 1-404-925-7924 Phone: 1-404-813-8030
  2915.     Command Corp. Inc, 3675 Crestwood Parkway, Duluth GA 30136, USA
  2916.     
  2917.     Phonetic Engine 400 (PE400) - Speech Systems, Inc.
  2918.      * Platform: PC
  2919.      * Description: Speaker independent, large vocabulary, continuous
  2920.        speech recognition for MS Windows or DOS.
  2921.      * Rough Cost: $1195 US dollars. Includes board, microphone,
  2922.        developer kit, documentation, 2 days of technical training and 90
  2923.        days of technical support.
  2924.      * Requirements: IBM AT class machine or better plus 5M disk space.
  2925.        Most processing is performed on-board (4M standard or 16M
  2926.        upgrade).
  2927.      * Misc: Requires developer to provide a context-free grammar.
  2928.        Vocabulary size unknown (quotes from 500 - 2000 words per
  2929.        grammar), but dynamic grammar switching capabilities may increase
  2930.        the effective vocabulary size. Development system includes
  2931.        lower-level C,C++ library (VoiceLib), higher-level DLL (SPOT)
  2932.        callable from many languages, SPOT/VBX, a custom control for
  2933.        Visual Basic and Visual C++.
  2934.      * Contact: 
  2935.     Speech Systems, Inc.
  2936.     2945 Center Green Court South
  2937.     Boulder, CO 80301-2275, USA
  2938.     Tel: 303.938.1110 Fax: 303.938.1874
  2939.     
  2940.     SayIt
  2941.      * Platform: Sun SPARCstation
  2942.      * Description: Voice recognition and macro building package for
  2943.        Suns in the Openwindows 3.0 environment. Speaker dependent
  2944.        discrete speech recognition. Vocabularies can be associated to
  2945.        applications and the active vocabulary follows the application
  2946.        that has input focus. Macros can include mouse commands,
  2947.        keystrokes, Unix commands, sound, Openwindow actions and more. An
  2948.        evaluation copy is available by email.
  2949.      * Hardware: Microphone required (SunMicrophone is fine).
  2950.      * Cost: $US295
  2951.      * Contact: 
  2952.     Phone: 1-800-245-UNIX or 1-415-572-0200
  2953.     Fax: 1-415-572-1300
  2954.     Email: info@qualix.com
  2955.     
  2956.     Kurzweil Voice for Windows
  2957.      * Platform: MS Windows 3.1
  2958.      * Description: Kurzweil Voice for Windows is a dictation product
  2959.        enabling the user to create text and enter data by speaking to
  2960.        Windows-based applications. System is adaptive but requires no
  2961.        initial training. Users can choose either 30,000 or 60,000 word
  2962.        active vocabulary. Application command translation templates for
  2963.        popular Windows application such as WordPerfect, 1-2-3, Organizer,
  2964.        Word.
  2965.      * Cost: US $995
  2966.      * Hardware: 486DX/33 or higher, 8 or 16 MB dedicated memory
  2967.        (depends on vocabulary, 30 MBs dedicated disk space, VGA or
  2968.        higher, Kurzweil-supplied microphone and DSP board.
  2969.      * Contact:
  2970.     Phone: 1-800-380-1234
  2971.     Email: info@kurz-ai.com
  2972.     
  2973.     D6006 Voice Control Processor
  2974.      * Platform: ?
  2975.      * Description: ?
  2976.      * Contact: 
  2977.     DSP Telecommunications Inc.
  2978.     2855 Kifer Road, Suite 202, Santa Clara CA 95051, USA
  2979.     Tel:(408)986-4310
  2980.     Fax:(408)986-4324
  2981.     
  2982.     Speech Commander - Listen for Windows
  2983.      * Platform: ?
  2984.      * Description: ?
  2985.      * Contact: 
  2986.     Verbex Voice Systems
  2987.     1090 King Georges Post Rd., Bldg 107,
  2988.     Edison NJ 08837, USA
  2989.     Tel:(908)225-5225
  2990.     Fax:(908)225-7764
  2991.     
  2992.     Voice-Trek 2.0
  2993.      * Platform: ?
  2994.      * Description: ?
  2995.      * Contact: 
  2996.     Tardis Technology Inc., Voice Recognition Div.
  2997.     10321 Los Alamitos Blvd., Los Alamitos CA 90720
  2998.     Tel:(310)799-3355 Fax:(310)799-3360
  2999.     
  3000.     Visus SpeechKit
  3001.      * Platform: NeXT
  3002.      * Description: SpeechKit is based on SPHINX, a
  3003.        speaker-independent, 1000 word or so, continuous speech
  3004.        recognition system which allows you to incorporate speech
  3005.        recognition into your applications. You can design your vocabulary
  3006.        and grammars.
  3007.      * Contact: Visus - no address or phone provided. A possible
  3008.        contact is Robert Brennan at Carnegie Mellon University. email:
  3009.        Robert_Brennan@cmu.edu
  3010.        
  3011.     recnet
  3012.      * Platform: UNIX
  3013.      * Description: Speech recognition for the speaker independent
  3014.        TIMIT and Resource Management tasks. It uses recurrent networks to
  3015.        estimate phone probabilities and Markov models to find the most
  3016.        probable sequence of phones or words. The system is a snapshot of
  3017.        evolving research code. There is no documentation other than
  3018.        published research papers. The components are:
  3019.           + A preprocessor which implements many standard and many non-
  3020.             standard front end processing techniques.
  3021.           + A recurrent net recogniser and parameter files
  3022.           + Two Markov model based recognisers, one for phone recognition
  3023.             and one for word recognition
  3024.           + A dynamic programming scoring package The complete system
  3025.             performs competatively.
  3026.      * Cost: Free
  3027.      * Requirements: TIMIT and Resource Management databases
  3028.      * Contact: Tony Robinson: ajr@eng.cam.ac.uk
  3029.      * Availability: by anonymous ftp
  3030.           +
  3031.             ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/misc/recnet-1.3.ta
  3032.             r.Z
  3033.             
  3034.     Lotec Speech Recognition Package
  3035.      * Platform: Sun
  3036.      * Description: Public domain speech recognition software. Operates
  3037.        from input in Sun audio format (.au files) and outputs word
  3038.        hypotheses and time labelling data. The software includes programs
  3039.        to collect speech samples, a labeller, a "featurizer" which
  3040.        parameterises speech files, a word spotter and the recogniser. The
  3041.        software can perform real time recognition on a Sparc 10 for small
  3042.        vocabularies.
  3043.      * Requirements: Sun SPARC audio input and a "decent" microphone
  3044.        Sun multimedia demo software (in /usr/demo/SOUND) and X.
  3045.      * Availability: By anonymous ftp
  3046.           + ftp://ftp.sanpo.t.u-tokyo.ac.jp/pub/nigel/lotec/lotec.tar.Z
  3047.      * Contact: Nigel Ward: nigel@sanpo.t.u-tokyo.ac.jp
  3048.        
  3049.     Myers' Hidden Markov Model software
  3050.      * Description: Hidden Markov model software for automatic speech
  3051.        recognition. C++ code that implements a basic left-right hidden
  3052.        Markov model and corresponding Baum-Welch (ML) training algorithm.
  3053.        It is meant as an example of the HMM algorithms described by
  3054.        L.Rabiner and others. The code was built in order to learn how HMM
  3055.        systems work and we are now offering it to the net so that others
  3056.        can learn how to use HMMs for speech recognition. Keep in mind
  3057.        that ease of understanding was pit primary concern, not
  3058.        efficiency. The code can be used to build an experimental speech
  3059.        recognition systems using "train_hmm" and "test_hmm", and can be
  3060.        used in conjunction with written tutorials on HMMs to understand
  3061.        how they work.
  3062.      * Availability: By anonymous ftp from the comp.speech archive
  3063.        site. There are three files in the directory
  3064.           + ftp://svr-ftp.eng.cam.ac.uk/pub/comp.speech/sources
  3065.    The files are
  3066.           + hmm.README
  3067.           + hmm-1.0.tar.Z
  3068.           + OR, hmm-1.0.tar.gz
  3069.    (Note: hmm-1.0.tar.Z and hmm-1.0.tar.gz compressed and GNU compressed
  3070.        versions of the same files)
  3071.      * Contact: Richard Myers: email rmyers@ics.uci.edu
  3072.        
  3073.     Voice Command Line Interface
  3074.      * Platform: Amiga
  3075.      * Description: VCLI will execute CLI commands, ARexx commands, or
  3076.        ARexx scripts by voice command through your audio digitizer. VCLI
  3077.        allows you to launch multiple applications or control any program
  3078.        with an ARexx capability entirely by spoken voice command. VCLI is
  3079.        fully multitasking and will run in the background, continuously
  3080.        listening for your voice commands even while other programs are
  3081.        running. Documentation is provided in AmigaGuide format. VCLI 6.0
  3082.        runs under either Amiga DOS 2.0 or 3.0.
  3083.      * Cost: Free?
  3084.      * Requirements: Supports the DSS8, PerfectSound 3, Sound Master,
  3085.        Sound Magic, and Generic audio digitizers.
  3086.      * Availability: by ftp from wuarchive.wustl.edu in the file
  3087.        systems/amiga/incoming/audio/VCLI60.lha and from
  3088.        amiga.physik.unizh.ch as the file pub/aminet/util/misc/VCLI60.lha
  3089.      * Contact: Author's email is RHorne@cup.portal.com
  3090.        
  3091.     DATAVOX - French
  3092.      * Platform: PC
  3093.      * Description: Continuous speech - speaker independent or
  3094.        dependent.
  3095.      * Rough Cost: ?
  3096.      * Requirements: 2 PC format boards (RdF1000 and TdS 96/25) and an
  3097.        A/D - D/A module (ASA116)
  3098.      * Misc: Application software may dialog with DATAVOX through 2
  3099.        types of interfaces :
  3100.           + Keyboard overlay: The application software may be used with
  3101.             any PC compatible package. No specific adaptation is
  3102.             necessary, you only need to define your configuration with
  3103.             the application software.
  3104.           + C library: Allows a user-written program to drive the
  3105.             recognition system.
  3106.    DATAVOX is based on the AMADEUS speech recognition software developed
  3107.        at LIMSI. It provides
  3108.           + Continuous speech recognition with 500 words speaker
  3109.             dependent, 50 words speaker independent (custom-made
  3110.             vocabulary).
  3111.           + Grammar of the application language (syntax acquisition,
  3112.             verification and simplification software).
  3113.           + Large vocabulary : DATAVOX can recognize vocabularies of
  3114.             several thousand words as long as there are no more than 500
  3115.             words in the active vocabulary at any given node. It takes
  3116.             less than 1 second to change syntax and vocabulary.
  3117.           + Training controlled by the system (use of co-articulation
  3118.             models).
  3119.           + Response time less than 500 ms for any phrase length.
  3120.           + Synthetis (ADPCM) can be heard simultaneously while
  3121.             recognition is being carried out.
  3122.      * Contact:
  3123.     VECSYS
  3124.     Le Chene rond, 91570 Bievres, France
  3125.     Fax: 33 1 69 41 24 30
  3126.     Voice: 33 1 69 41 15 04
  3127.     
  3128.     PowerSecretary
  3129.      * Platform: Centris 650, 660AV. Quadra 650, 660AV, 700,800, 840AV,
  3130.        900, 950.
  3131.      * Description: Speaker dependent/adaptive system requiring words
  3132.        to be separated by short pauses.
  3133.      * Vocabulary: 30,000 at any one time, automatically selected from
  3134.        120,000-word dictionary.
  3135.      * Cost: US$2,495; non-AV machines need an audio board will cost
  3136.        about US$300.
  3137.      * Requirements: Minimum of 16M of ram and System 7.0.
  3138.      * Contact:
  3139.     Articulate Systems
  3140.     600 W. Cummings Park, Suite 4500
  3141.     Woburn, MA 01801
  3142.     Ph: (617) 935-5656 Fax: (617) 935-0490.
  3143.     
  3144.     ICSS system from IBM
  3145.      * Description: A large vocabulary, speaker independent, continuous
  3146.        speech system which runs under Windows, OS/2, and AIX.
  3147.      * Requirements: Soundboard (e.g. Soundblaster)
  3148.      * Price: $US319
  3149.      * Contact: 
  3150.     A&G Graphics Interface
  3151.     ICSS Reseller
  3152.     51 Gore Street, Cambridge, MA, 02139, USA
  3153.     (617) 492-0120
  3154.     
  3155.     Custom Voice(TM) by A&G Graphics Interface
  3156.      * Description: Speech recognition custom control for Visual Basic,
  3157.        Visual C++, Borland C++, and other development platforms that
  3158.        support *.VBX. Provides an engine/proprietary independent
  3159.        development platform for speech recognition. Currently supports
  3160.        ICSS, but should soon support other platforms. Includes a grammar
  3161.        debugger and parser APIs to parse spoken speech into useful data
  3162.        types.
  3163.      * Requirements: Visual Basic or any development platform that
  3164.        supports VBX.
  3165.      * Price: $US495 or $695 bundled with ICSS.
  3166.      * Contact: 
  3167.     A&G Graphics Interface
  3168.     51 Gore Street, Cambridge, MA, 02139, USA
  3169.     (617) 492-0120
  3170.     
  3171.     Creative VoiceAssist
  3172.      * Platform: PC (?)
  3173.      * Price: $US99.95
  3174.      * Contact:
  3175.     Creative Labs
  3176.     Ph: 1-800-998-5227
  3177.     
  3178.      _________________________________________________________________
  3179.  
  3180.  
  3181.  
  3182.  
  3183. Andrew Hunt
  3184.   ---
  3185. Speech Technology Research Group        Ph:  61-2-351 4509
  3186. Dept. of Electrical Engineering            Fax: 61-2-351 3847
  3187. University of Sydney, NSW, 2006, Australia    email: andrewh@speech.su.oz.au
  3188.